Hadoop

Amazon Elastic MapReduceでPigを使う。(その2;Amazon EMRでサンプルプログラムを実行する)

先のログで作成したサンプルプログラムをAmazon Elastic MapReduce(EMR)で実行する。 Job Flowの作成 elastic mapreduce ruby コマンドラインツールから、Jobフローを作成する。この際、「pigを使うよ」と宣言する。 リージョンは、これまでのサンプルと同…

Amazon Elastic MapReduceでPigを使う。(その1;Eclipseで開発環境を構築する)

PigはHadoop Map ReduceのためのDSL(Domain Specific Language)で、直感的な記述でプログラムの記述ができて、それが(プリ)コンパイラによってMapReduceベースのプログラムに変換される。Pigを記述するDSLはPig Latinと呼ばれる。 Hiveとともに有名なDSL…

AWSを使ったHadoop分散処理環境のトポロジー。EC2とEMRの比較。

ここまでの(長い)前置きで、Amazon Web Serviceを使った分散処理環境を試してみた。今回は、Hadoopの実行環境として、EC2とEMRを使ってみた結果を簡単に比較する。 EC2をつかって構築する場合 Amazon Elastic Compute Cloud(EC2)を使ってHadoopの実行環…

Amazon Elastic MapReduceを使う(その4:マスタノードにSSHで接続して、普通にhadoopをつかってみる)

2014/6/8 記事を更新しました。 Amazon Elastic MapReduceを使う:SSHでマスタノードにログインする。sftpでファイルを転送する。 今回の記事では、AmazonEMRのマスターノードにSSHで接続してみる。 結論をいってしまうと、EMRのEC2インスタンスにログインし…

Amazon Elastic MapReduceを使う(その3:コマンドラインツールでBootStrapActionを動かす)

先のログで紹介したEMR用のコマンドラインツール;Elastic MapReduce Rubyはとても使い勝手がよい。EMRの初回のログで、Managemant ConsoleからJobFlowを定義した際に、BootStrapActionを定義する箇所があった。 BootstrapActionはジョブフロー起動時(EC2イ…

Amazon Elastic MapReduceを使う(その2:コマンドラインツール)

2014/6/7 記事を更新しました。 Amazon Elastic MapReduceを使う:Rubyクライアント・ツールを使う。 - 前回は、AWS Management ConsoleからMapReduceのサンプルを実行した。参考にした「Hadoopファーストガイド」でruby製のコマンドラインツールを紹介して…

Amazon Elastic MapReduceを使う(その1)

2014/6/7 : 記事を更新しました。 Hadoop、おしさしぶり(It's long time to see, Hadoop.) Amazon Elastic MapReduceを使う:マネージメント・コンソールからのクラスタの起動 Amazon Elastic MapReduceを使う:マネージメント・コンソールからサンプルを…

MapReduce: Simplified Data Processing on Large Clusters メモ

Hadoop MapReduceが、2004年12月に行われた6th Symposium of Operating System and Implementation(San Francisco , Dec.6-8)において発表された「MapReduce: Simplified Data Processing on Large Clusters (Dean, J. and Ghemawat, S. 2004)」に触発され…

Amazon Elastic Compute Cloud(EC2)に構築したHadoop(疑似分散)で、Tweetをワードカウントする。

一口に「Twitterの記事から語句の出現頻度を取得する」といっても、前段階の準備が大変だ。ここまでのログで Hadoopの開発環境の構築 JavaプログラムによるTweetの取得 JavaプログラムとMecabによるTweetの品詞分解(語句の抽出) Amazon EC2上でのHadoopの…

Amazon Elastic Compute Cloud(EC2)にHadoop実行環境を構築する。

EC2上にHadoopをインストールする手順は、たくさん記事にされているが、備忘のためログにしておく。 「kj-kiのはてなダイアリー:疑似分散モードでHadoopインストール」を参考にさせていただいた。スケールアウトのメリットを測定することが当面の目的ではな…

Twitterから取得した「つぶやき」を品詞に分解する

前回のログで、TwitterからTweetとアカウント名称を取得した。 「エコノミスト」誌(6/4号)の特集記事のように、Tweetに含まれる語句のワードカウントをとるには、先のデータを品詞分解(形態素解析)しなければならない。ここでは、形態素解析エンジンとし…

Twitterからつぶやきを取得する。

「エコノミスト誌(6/4号;使える統計学)」で特集を組んだ「Twitterのつぶやきから景気動向指数を推定する」についてだが、第一ステップの簡単な絵を書くと、以下のようになる。 NTTデータさんが、Twitterの全データの取得権を持っている(これは、「権利を…

EclipseにHadoopの開発環境を作る。

2014/6/13 新しい記事があります。 「EclipseでHadoop2.4の開発環境を作る&ワードカウントのプログラムを作成する。」 - Hadoopを実験するにあたって、プログラムが作れる環境を構築した。 構築には、「30 分で NetBeans を使って Hadoop のプログラムを作…

fedora13にhadoopを入れてみた。

ずっと前にクラウドマガジンvol.1を買って、スタンドアローンでapache hadoopをインストールする記事を読んだ。最近、手元のノート2台をUbuntu10.04とfedora13にした。fc13の方にHadoopを入れてみたので覚書き。インストールは記事通りで問題なし。 javaは…