Hadoop、おしさしぶり(It's long time to see, Hadoop.)

先日、学会の発表を聞いていて、久しぶりにHadoop+MapReduceをやってみようという気になった。
気がついてみると、昨年の6月〜7月にHadoop+MapReduceの評価をやっていたので、1年ぶりとなる。

1年も経てば、さぞかし変わってしまっているだろうと思っていたのだが、やっぱり変わっていた。

Amazon Web Serviceで、アカウントコンソールからEMR(Elastic MapReduce)を選ぶと、以下の画面が現れた。なぜが、自分のアカウントは、Regionがus-west(Oregon)になってしまう。us-standard(N. Virginia、us-east)に変更する。

いきなり「Create Cluster」にいくのも良くないと思うので、Over Viewのリンクをクリックしてみると、昨年見慣れた画面が現れた。
スクリーンショットが分割してしまうが、このページを見れば大体のことは分かりそう。

スクロールすると、面白そうな事例やゲノムデータが使えますと言った魅力的な文言が見える(ゲノムのページをクリックすると、英語のページに遷移するが、何やら本当にデータを使えるみたい)。

その下にいくと、簡単な使い方が書いてある。こんな説明あったんだ的に読む。「大量のデータを送るには、AWS Import/Export」と書いてある。昨年、一連の実験をしたときに、S3にデータを送るのに相当の時間がかかってしまっていた。これじゃぁ、計算が早くなっても的だったので、今回は使ってみようと思う。

ページの左ペインのメニューにプライスがあるので覗いておく。安くなりこそすれ、高くなってるはずはないだろう。

昨年同様、価格システムは、EC2料金+EMR料金となっている。昨年かなり回してみたが、お小遣いの範囲でいけたので、今年も大丈夫でしょう。

次回から、新しい管理画面の使い方とか、昨年のサンプルなど使って実験をします。