Amazon Elastic MapReduceでPigを使う。（その２；Amazon EMRでサンプルプログラムを実行する）

先のログで作成したサンプルプログラムをAmazon Elastic MapReduce(EMR）で実行する。 Job Flowの作成 elastic mapreduce ruby コマンドラインツールから、Jobフローを作成する。この際、「pigを使うよ」と宣言する。リージョンは、これまでのサンプルと同…

2013-07-05

Amazon Elastic MapReduceでPigを使う。（その１；Eclipseで開発環境を構築する）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr Pig

PigはHadoop Map ReduceのためのDSL（Domain Specific Language）で、直感的な記述でプログラムの記述ができて、それが（プリ）コンパイラによってMapReduceベースのプログラムに変換される。Pigを記述するDSLはPig Latinと呼ばれる。 Hiveとともに有名なDSL…

2013-07-03

AWSを使ったHadoop分散処理環境のトポロジー。EC2とEMRの比較。

ビッグデータ BigData クラウド hadoop AWS EMR EC2

ここまでの（長い）前置きで、Amazon Web Serviceを使った分散処理環境を試してみた。今回は、Hadoopの実行環境として、EC2とEMRを使ってみた結果を簡単に比較する。 EC2をつかって構築する場合 Amazon Elastic Compute Cloud（EC2）を使ってHadoopの実行環…

2013-07-02

Amazon Elastic MapReduceを使う（その４：マスタノードにSSHで接続して、普通にhadoopをつかってみる）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

2014/6/8 記事を更新しました。 Amazon Elastic MapReduceを使う：SSHでマスタノードにログインする。sftpでファイルを転送する。今回の記事では、AmazonEMRのマスターノードにSSHで接続してみる。結論をいってしまうと、EMRのEC2インスタンスにログインし…

2013-07-01

Amazon Elastic MapReduceを使う（その３：コマンドラインツールでBootStrapActionを動かす）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

先のログで紹介したEMR用のコマンドラインツール；Elastic MapReduce Rubyはとても使い勝手がよい。EMRの初回のログで、Managemant ConsoleからJobFlowを定義した際に、BootStrapActionを定義する箇所があった。 BootstrapActionはジョブフロー起動時（EC2イ…

2013-06-29

Amazon Elastic MapReduceを使う（その２：コマンドラインツール）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

2014/6/7 記事を更新しました。 Amazon Elastic MapReduceを使う：Rubyクライアント・ツールを使う。 - 前回は、AWS Management ConsoleからMapReduceのサンプルを実行した。参考にした「Hadoopファーストガイド」でruby製のコマンドラインツールを紹介して…

2013-06-28

Amazon Elastic MapReduceを使う（その１）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

2014/6/7 : 記事を更新しました。 Hadoop、おしさしぶり（It's long time to see, Hadoop.） Amazon Elastic MapReduceを使う：マネージメント・コンソールからのクラスタの起動 Amazon Elastic MapReduceを使う：マネージメント・コンソールからサンプルを…

2013-06-26

MapReduce: Simplified Data Processing on Large Clusters メモ

ビッグデータ BigData MapReduce hadoop Google

Hadoop MapReduceが、2004年12月に行われた6th Symposium of Operating System and Implementation（San Francisco , Dec.6-8）において発表された「MapReduce: Simplified Data Processing on Large Clusters (Dean, J. and Ghemawat, S. 2004)」に触発され…