Amazon Web Services
久しぶりのビッグデータ関連の投稿。昨年7月に書いたレポートを掲載する(末尾のリンク)。レポートで取り扱うのは、「数百万ー数億の説明変数がある判別問題においてMapReduceを用いてスケーラブルに変数選択をする方法論」について。統計方向からの勘弁な…
ようやく以前やりたかったことができた。 というのは、「S3バケットにおいたテキストファイルをDistributed Cacheとして使う」こと。twasinkさんがGitHubに公開してくれているコードのおかげ。Thank you.Distributed Cacheを使いたいケースはままあって、例…
前々回の記事では、1変量の算術平均を計算した。 今回は、以下の形式(多変量データ)の「各列」、つまり「各変量」の平均値を計算する。前々回の記事で述べたように、「超多変量」=「超高次元」がビッグデータの本質の1つである。せっかくなので、自分の…
前回の記事で、Hadoop2にしたら随分たくさんMapとReduceが動いたので、スレッドじゃないよね、と思ってしまった。特にMapperは起動の仕方でプログラムがデタラメになってしまうので、ちょっと調べてみた。Hadoop2.4のAPIをみると、Mapperをつかってる限りで…
ワードカウントに続き、今回も簡単なHadoopMapreduceのサンプル・プログラムを作ってみる。昨年の記事を参考にして、Amazon Elastic MapReduceのHadoop2.4環境で算術平均を算出する。 データの形式:ビッグデータを視野に入れて。 ビッグデータを視野に入れ…
前回の記事では、前々回に作成したワードカウントのサンプルをAWSマネージメントコンソールから実行した。 GUIから実行するのは簡単なのだが、回数が多くなってくると面倒くさい。なので、Elactic MapReduce Client Rubyでの実行方法と、SSHでログインして(…
前回の記事で作成したワードカウントをAmzon Elastic MapReduceで実行してみる。まず、プログラムと入出力ファイルの置き場所、プログラムの実行方法を決めておく。 ここまでの検証で、プログラム(jarファイル)の置き場所は、 S3 マスタノード の2パター…
今回は、ちょっとした備忘。 Amazon Elastic MapReduceの環境を初期設定するために、bootstrap actionsというのが定義できる。クラスタ起動時にHadoopが開始される前、各インスタンスに対して実行される。(詳しくはAWS Documentation(英語)を参照) ここ…
前回に引き続き、使用するHadoopのバージョンは2.4。1年前の記事をもとに、Eclipseで開発環境を作る。開発を行うクライアントは、MacBook Pro (OSX 10.9.3)。クライアントのJavaのバージョンは以下。 MacBook-Pro:~ tetsuya$ java -version java version "…
今回から(覚悟を決めて)Hadoop2のAMIを使ってみる。 Hadoop2系は、昨年の秋、バージョン0.23から2.2というバージョン番号が付与されたプロダクト(Hadoop1系は0.20からメジャーバージョンが付与された)。YARN(Yet Another Resource Negotiator)という分…
Amazon Elastic MapReduceはEC2インスタンスで構成されている。ということは、SSHなどでログインが可能だし、クライアントから直接データやプログラムが配備できる。 AWSのサイトにも書いてあるし、(日付が古いが)「Amazon Elastic MapReduce ドキュメント…
以前より、アカウントのSecurity Credentialsにアクセスすると、「AWS Identity and Access Managementに移行せよ」とか、Secret Access Keyを見ようとすると「見られなくなるよ」とか出てくるのは分かってたんだけど、放っておいた。例えば、Security Credi…
Ruby製のクライアント・ツールのダウンロード、ジョブフローの作成(クラスタの作成)、ステップの追加、ジョブフローの停止を行う。 基本的に1年前の記事を追って行う。クライアントは、Mac Book Pro(OSX 10.9.3)。Rubyのバージョンは以下。 バージョン 2.…
前回の記事では、Amazon Elastic MapReduceでWord Countサンプルを実行後、クラスタを停止した。今回は、そのクローンを作成し、Word Countを再実行する。1回実行したジョブを再実行するのに便利な機能。Amazon Web Servicesにログインし、Elastic MapReduc…
前回の記事では、Amazon Web ServicesのEMR(Amazon Elastic MapReduce)で、マネージメント・コンソールからクラスタを作成した。 今回は、同じくマネージメント・コンソールから、サンプルプログラム(Word Count)を起動してみる。 Pythonで書かれたサン…
先日、学会の発表を聞いていて、久しぶりにHadoop+MapReduceをやってみようという気になった。 気がついてみると、昨年の6月〜7月にHadoop+MapReduceの評価をやっていたので、1年ぶりとなる。1年も経てば、さぞかし変わってしまっているだろうと思っていた…
Amazon Web ServicesのEMR(Amazon Elastic MapReduce)を、マネージメント・コンソールから一通り動かしてみる。 最初の画面(下)で「Create Cluster(青いボタン)」をクリックする。 すると、クラスタをコンンフィギュレーションする画面に切り替わるの…