Amazon Elastic MapReduce
さて、夏休みもそろそろ終わり。総力(自分のですが)を結集して、一仕事してみたいと思います。今回のログでは、MahoutのサンプルにあるParallel ALS(という次元縮約の分散計算アルゴリズム)を使ったジョブを動かしてみる。Mahoutに、Parallel ALS(Altern…
先のログでは、Apache Mahout 0.8のサンプルにあるcluster-syntheticcontrol.shを用いて、「k-means法」によるクラスタリングについて詳しくみた。同shellでは、他にもいくつかのクラスタリング手法(アルゴリズム)を試すことができる。今回のログでは、残…
先のログでは、MahoutをLocal環境(Mac OSX Mountain Lion)で実行した。今回は、Amazon Elastic MapReduce(EMR)+Hadoop MapReduceで、k-meansクラスタリングを動かしてみたい。 Mahoutのバージョンは、0.8で行った。EMRの構成は、m1.smallが2台の最小構…
前回までのログで、観測値行列から相関行列を求めるための一通りの仕組みができた。この開発をスタートするときに、以下の目標を立てた。 実行時間の目標:以下のクラスターを用い、5000変量で、各変量につき5000サンプルあるとして1時間以内での計算を行う…
話が脇道にそれてしまうが、2013/7/18の読売新聞の記事を見て驚いた。1面トップに「Suica履歴売り出す JR東日本」。 どんな情報を売り出したのだろうと読んでみたところ、 提供データは私鉄を含む首都圏約1800駅の利用者の性別、年齢、乗降日時。定期券とし…
今回から、数回に分けて変量間の相関行列(Peason相関係数が並んだ行列) を求めていく。 注記;以前のログにも書いたが、Apache Mahoutの協調フィルタリングの実装には、Pearson相関係数によるSimilarity(類似度)計算が含まれている。このブログで示す結…
前回のログでは、Case1として行列積の演算プログラムを示した。 しかしながら、5000行5000列の行列同士の演算に6時間以上の時間がかかってしまい、これでは「ビッグデータ」の探索的な分析では使えないだろう。これまで、再三引用している「エコノミスト誌(…
前回のログで、MapReduceのパラダイムにおいて、行列積の演算がかならずしもMapReduceのパラダイムに適合したものでないことと、「行列積を求めるという行為」についてのインターネット上での評価を紹介した。今回から2回のログに分けて、2パターンの行列…
今回のログでは、先の2回のログ(標本平均、分散・標準偏差)で作成したプログラムのスケーラビリティーを、Amazon Elastic MapReduceで評価してみたい。変量をm、サンプルサイズをnとすると、普通の統計の世界では、m 国勢調査などを考えると、家族構成や…
先のログで、標本平均を求めたので、今回は(多変量の場合について)分散と標準偏差を計算するプログラムを作成し、Amazon Elastic MapReduce(EMR)で実行してみる。開発環境は、Mac OSX Mountain Lion。Hadoopのバージョンは1.1.2である。(Amazon EMRのバー…
Hadoop2を使った新しい記事があります。 Amazon Elastic MapReduce : Hadoop2.4環境で標本平均を計算する(Ruby Client)。 Amazon Elastic MapReduce : Hadoop2.4環境で100万変量(10GB)の算術平均を計算する。 - 今回は、ありきたりではあるが、MapReduce…
先のログで作成したサンプルプログラムをAmazon Elastic MapReduce(EMR)で実行する。 Job Flowの作成 elastic mapreduce ruby コマンドラインツールから、Jobフローを作成する。この際、「pigを使うよ」と宣言する。 リージョンは、これまでのサンプルと同…
PigはHadoop Map ReduceのためのDSL(Domain Specific Language)で、直感的な記述でプログラムの記述ができて、それが(プリ)コンパイラによってMapReduceベースのプログラムに変換される。Pigを記述するDSLはPig Latinと呼ばれる。 Hiveとともに有名なDSL…
2014/6/8 記事を更新しました。 Amazon Elastic MapReduceを使う:SSHでマスタノードにログインする。sftpでファイルを転送する。 今回の記事では、AmazonEMRのマスターノードにSSHで接続してみる。 結論をいってしまうと、EMRのEC2インスタンスにログインし…
先のログで紹介したEMR用のコマンドラインツール;Elastic MapReduce Rubyはとても使い勝手がよい。EMRの初回のログで、Managemant ConsoleからJobFlowを定義した際に、BootStrapActionを定義する箇所があった。 BootstrapActionはジョブフロー起動時(EC2イ…
2014/6/7 記事を更新しました。 Amazon Elastic MapReduceを使う:Rubyクライアント・ツールを使う。 - 前回は、AWS Management ConsoleからMapReduceのサンプルを実行した。参考にした「Hadoopファーストガイド」でruby製のコマンドラインツールを紹介して…
2014/6/7 : 記事を更新しました。 Hadoop、おしさしぶり(It's long time to see, Hadoop.) Amazon Elastic MapReduceを使う:マネージメント・コンソールからのクラスタの起動 Amazon Elastic MapReduceを使う:マネージメント・コンソールからサンプルを…