AWS

AWSのClamavとPCRE

AWS(Amazon Web Services)のEC2に入れたClamavが以下のメッセージを吐いていた。pcreとpcre-develは導入済み。 yum update clamavで直ったので、どうやらfixされたらしい。(clamavのバージョンは0.99.2) [LibClamAV] cli_loadldb: logical signature for…

ビッグデータの超高次元な説明変数をスケーラブルに選択する(Selection of Huge Dimensional Explanatory Variables by Google MapReduce)

久しぶりのビッグデータ関連の投稿。昨年7月に書いたレポートを掲載する(末尾のリンク)。レポートで取り扱うのは、「数百万ー数億の説明変数がある判別問題においてMapReduceを用いてスケーラブルに変数選択をする方法論」について。統計方向からの勘弁な…

Amazon Elastic MapReduce : Hadoop2.4環境でDistributed Cacheを使う。

ようやく以前やりたかったことができた。 というのは、「S3バケットにおいたテキストファイルをDistributed Cacheとして使う」こと。twasinkさんがGitHubに公開してくれているコードのおかげ。Thank you.Distributed Cacheを使いたいケースはままあって、例…

Amazon Elastic MapReduce : Hadoop2.4環境で100万変量(10GB)の算術平均を計算する。

前々回の記事では、1変量の算術平均を計算した。 今回は、以下の形式(多変量データ)の「各列」、つまり「各変量」の平均値を計算する。前々回の記事で述べたように、「超多変量」=「超高次元」がビッグデータの本質の1つである。せっかくなので、自分の…

Amazon Elastic MapReduce : MapとReduceのスレッドセーフ実験。

前回の記事で、Hadoop2にしたら随分たくさんMapとReduceが動いたので、スレッドじゃないよね、と思ってしまった。特にMapperは起動の仕方でプログラムがデタラメになってしまうので、ちょっと調べてみた。Hadoop2.4のAPIをみると、Mapperをつかってる限りで…

Amazon Elastic MapReduce : Hadoop2.4環境で標本平均を計算する(Ruby Client)。

ワードカウントに続き、今回も簡単なHadoopMapreduceのサンプル・プログラムを作ってみる。昨年の記事を参考にして、Amazon Elastic MapReduceのHadoop2.4環境で算術平均を算出する。 データの形式:ビッグデータを視野に入れて。 ビッグデータを視野に入れ…

Amazon Elastic MapReduce : Hadoop2.4環境でワードカウントのプログラムを実行する(Ruby Client & SSH)。

前回の記事では、前々回に作成したワードカウントのサンプルをAWSマネージメントコンソールから実行した。 GUIから実行するのは簡単なのだが、回数が多くなってくると面倒くさい。なので、Elactic MapReduce Client Rubyでの実行方法と、SSHでログインして(…

Amazon Elastic MapReduce : Hadoop2.4でワードカウントのプログラムを実行する。

前回の記事で作成したワードカウントをAmzon Elastic MapReduceで実行してみる。まず、プログラムと入出力ファイルの置き場所、プログラムの実行方法を決めておく。 ここまでの検証で、プログラム(jarファイル)の置き場所は、 S3 マスタノード の2パター…

Amazon Elastic MapReduce : bootstrap-actionのwgetがうまくいかない。

今回は、ちょっとした備忘。 Amazon Elastic MapReduceの環境を初期設定するために、bootstrap actionsというのが定義できる。クラスタ起動時にHadoopが開始される前、各インスタンスに対して実行される。(詳しくはAWS Documentation(英語)を参照) ここ…

EclipseでHadoop2.4の開発環境を作る&ワードカウントのプログラムを作成する。

前回に引き続き、使用するHadoopのバージョンは2.4。1年前の記事をもとに、Eclipseで開発環境を作る。開発を行うクライアントは、MacBook Pro (OSX 10.9.3)。クライアントのJavaのバージョンは以下。 MacBook-Pro:~ tetsuya$ java -version java version "…

Amazon Elastic MapReduceを使う:Hadoop2.4でサンプルを実行してみる。

今回から(覚悟を決めて)Hadoop2のAMIを使ってみる。 Hadoop2系は、昨年の秋、バージョン0.23から2.2というバージョン番号が付与されたプロダクト(Hadoop1系は0.20からメジャーバージョンが付与された)。YARN(Yet Another Resource Negotiator)という分…

Amazon Elastic MapReduceを使う:SSHでマスタノードにログインする。sftpでファイルを転送する。

Amazon Elastic MapReduceはEC2インスタンスで構成されている。ということは、SSHなどでログインが可能だし、クライアントから直接データやプログラムが配備できる。 AWSのサイトにも書いてあるし、(日付が古いが)「Amazon Elastic MapReduce ドキュメント…

AWS Identity and Access Managementに移行する。

以前より、アカウントのSecurity Credentialsにアクセスすると、「AWS Identity and Access Managementに移行せよ」とか、Secret Access Keyを見ようとすると「見られなくなるよ」とか出てくるのは分かってたんだけど、放っておいた。例えば、Security Credi…

Amazon Elastic MapReduceを使う:Rubyクライアント・ツールを使う。

Ruby製のクライアント・ツールのダウンロード、ジョブフローの作成(クラスタの作成)、ステップの追加、ジョブフローの停止を行う。 基本的に1年前の記事を追って行う。クライアントは、Mac Book Pro(OSX 10.9.3)。Rubyのバージョンは以下。 バージョン 2.…

Amazon Elastic MapReduceを使う:マネージメント・コンソールでクラスタのクローンを作成する。

前回の記事では、Amazon Elastic MapReduceでWord Countサンプルを実行後、クラスタを停止した。今回は、そのクローンを作成し、Word Countを再実行する。1回実行したジョブを再実行するのに便利な機能。Amazon Web Servicesにログインし、Elastic MapReduc…

Amazon Elastic MapReduceを使う:マネージメント・コンソールからサンプルを動かす。

前回の記事では、Amazon Web ServicesのEMR(Amazon Elastic MapReduce)で、マネージメント・コンソールからクラスタを作成した。 今回は、同じくマネージメント・コンソールから、サンプルプログラム(Word Count)を起動してみる。 Pythonで書かれたサン…

Hadoop、おしさしぶり(It's long time to see, Hadoop.)

先日、学会の発表を聞いていて、久しぶりにHadoop+MapReduceをやってみようという気になった。 気がついてみると、昨年の6月〜7月にHadoop+MapReduceの評価をやっていたので、1年ぶりとなる。1年も経てば、さぞかし変わってしまっているだろうと思っていた…

Amazon Elastic MapReduceを使う:マネージメント・コンソールからのクラスタの起動

Amazon Web ServicesのEMR(Amazon Elastic MapReduce)を、マネージメント・コンソールから一通り動かしてみる。 最初の画面(下)で「Create Cluster(青いボタン)」をクリックする。 すると、クラスタをコンンフィギュレーションする画面に切り替わるの…

AWSを使ったHadoop分散処理環境のトポロジー。EC2とEMRの比較。

ここまでの(長い)前置きで、Amazon Web Serviceを使った分散処理環境を試してみた。今回は、Hadoopの実行環境として、EC2とEMRを使ってみた結果を簡単に比較する。 EC2をつかって構築する場合 Amazon Elastic Compute Cloud(EC2)を使ってHadoopの実行環…

Amazon Elastic Compute Cloud(EC2)に構築したHadoop(疑似分散)で、Tweetをワードカウントする。

一口に「Twitterの記事から語句の出現頻度を取得する」といっても、前段階の準備が大変だ。ここまでのログで Hadoopの開発環境の構築 JavaプログラムによるTweetの取得 JavaプログラムとMecabによるTweetの品詞分解(語句の抽出) Amazon EC2上でのHadoopの…

Amazon Elastic Compute Cloud(EC2)にHadoop実行環境を構築する。

EC2上にHadoopをインストールする手順は、たくさん記事にされているが、備忘のためログにしておく。 「kj-kiのはてなダイアリー:疑似分散モードでHadoopインストール」を参考にさせていただいた。スケールアウトのメリットを測定することが当面の目的ではな…

ハブはSingapore

Amzon Web Service(AWS)から、ニュースレターが届いた。その中に「シンガポールにアジアのデータセンターを置く」というアナウンスが載っていた(これ)。日本からAWSを使って見ると、SSHで操作する際などで結構な遅延(latency)が発生する。特に、ラインエデ…