Hadoop MapReduceで相関行列を計算する。Roadmap for Calculating Large Correlation Coefficient Matrix based on Dense Matrix Multiplication with Hadoop MapReduce

今回から、数回に分けて変量間の相関行列（Peason相関係数が並んだ行列）を求めていく。注記；以前のログにも書いたが、Apache Mahoutの協調フィルタリングの実装には、Pearson相関係数によるSimilarity（類似度）計算が含まれている。このブログで示す結…

2013-07-18

Hadoop MapReduceで行列積を計算する（ケース２）（Dense Matrix Multiplication with Hadoop MapReduce: Case2)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

前回のログでは、Case1として行列積の演算プログラムを示した。しかしながら、5000行5000列の行列同士の演算に6時間以上の時間がかかってしまい、これでは「ビッグデータ」の探索的な分析では使えないだろう。これまで、再三引用している「エコノミスト誌（…

2013-07-17

Hadoop MapReduceで行列積を計算する（ケース１）（Dense Matrix Multiplication with Hadoop MapReduce: Case1)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

前回のログで、MapReduceのパラダイムにおいて、行列積の演算がかならずしもMapReduceのパラダイムに適合したものでないことと、「行列積を求めるという行為」についてのインターネット上での評価を紹介した。今回から２回のログに分けて、２パターンの行列…

2013-07-16

Hadoop MapReduceで行列積を計算する（Introduction to Dense Matrix Multiplication with Hadoop MapReduce)

ビッグデータ BigData クラウド hadoop 統計学 statistics

前回までのログで、観測値（変量：m、サンプルサイズ：n）について、平均、分散、標準偏差を、mとnの両方についてスケーラブルなプログラムに落とし込むことができたように思う。今回から数回に分けて、Hadoop MapReduceのパラダイムで行列積（Dense Matrix …

2013-07-12

Hadoop MapReduce: 平均、分散、標準偏差計算のスケーラビリティー評価(Amazon EMR)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

今回のログでは、先の２回のログ（標本平均、分散・標準偏差）で作成したプログラムのスケーラビリティーを、Amazon Elastic MapReduceで評価してみたい。変量をm、サンプルサイズをnとすると、普通の統計の世界では、m 国勢調査などを考えると、家族構成や…

2013-07-11

Hadoop MapReduceで分散と標準偏差をスケーラブルに計算する

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

先のログで、標本平均を求めたので、今回は（多変量の場合について）分散と標準偏差を計算するプログラムを作成し、Amazon Elastic MapReduce(EMR)で実行してみる。開発環境は、Mac OSX Mountain Lion。Hadoopのバージョンは1.1.2である。（Amazon EMRのバー…

2013-07-09

Hadoop MapReduceで標本平均をスケーラブルに計算する

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

Hadoop2を使った新しい記事があります。 Amazon Elastic MapReduce : Hadoop2.4環境で標本平均を計算する（Ruby Client）。 Amazon Elastic MapReduce : Hadoop2.4環境で100万変量（10GB）の算術平均を計算する。 - 今回は、ありきたりではあるが、MapReduce…

2013-07-06

Amazon Elastic MapReduceでPigを使う。（その２；Amazon EMRでサンプルプログラムを実行する）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr Pig

先のログで作成したサンプルプログラムをAmazon Elastic MapReduce(EMR）で実行する。 Job Flowの作成 elastic mapreduce ruby コマンドラインツールから、Jobフローを作成する。この際、「pigを使うよ」と宣言する。リージョンは、これまでのサンプルと同…

2013-07-05

Amazon Elastic MapReduceでPigを使う。（その１；Eclipseで開発環境を構築する）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr Pig

PigはHadoop Map ReduceのためのDSL（Domain Specific Language）で、直感的な記述でプログラムの記述ができて、それが（プリ）コンパイラによってMapReduceベースのプログラムに変換される。Pigを記述するDSLはPig Latinと呼ばれる。 Hiveとともに有名なDSL…

2013-07-03

AWSを使ったHadoop分散処理環境のトポロジー。EC2とEMRの比較。

ビッグデータ BigData クラウド hadoop AWS EMR EC2

ここまでの（長い）前置きで、Amazon Web Serviceを使った分散処理環境を試してみた。今回は、Hadoopの実行環境として、EC2とEMRを使ってみた結果を簡単に比較する。 EC2をつかって構築する場合 Amazon Elastic Compute Cloud（EC2）を使ってHadoopの実行環…

2013-07-02

Amazon Elastic MapReduceを使う（その４：マスタノードにSSHで接続して、普通にhadoopをつかってみる）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

2014/6/8 記事を更新しました。 Amazon Elastic MapReduceを使う：SSHでマスタノードにログインする。sftpでファイルを転送する。今回の記事では、AmazonEMRのマスターノードにSSHで接続してみる。結論をいってしまうと、EMRのEC2インスタンスにログインし…

2013-07-01

Amazon Elastic MapReduceを使う（その３：コマンドラインツールでBootStrapActionを動かす）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

先のログで紹介したEMR用のコマンドラインツール；Elastic MapReduce Rubyはとても使い勝手がよい。EMRの初回のログで、Managemant ConsoleからJobFlowを定義した際に、BootStrapActionを定義する箇所があった。 BootstrapActionはジョブフロー起動時（EC2イ…

2013-06-29

Amazon Elastic MapReduceを使う（その２：コマンドラインツール）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

2014/6/7 記事を更新しました。 Amazon Elastic MapReduceを使う：Rubyクライアント・ツールを使う。 - 前回は、AWS Management ConsoleからMapReduceのサンプルを実行した。参考にした「Hadoopファーストガイド」でruby製のコマンドラインツールを紹介して…

2013-06-28

Amazon Elastic MapReduceを使う（その１）

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr

2014/6/7 : 記事を更新しました。 Hadoop、おしさしぶり（It's long time to see, Hadoop.） Amazon Elastic MapReduceを使う：マネージメント・コンソールからのクラスタの起動 Amazon Elastic MapReduceを使う：マネージメント・コンソールからサンプルを…

2013-06-25

Amazon Elastic Compute Cloud(EC2)に構築したHadoop（疑似分散）で、Tweetをワードカウントする。

ビッグデータ BigData クラウド hadoop aws EC2

一口に「Twitterの記事から語句の出現頻度を取得する」といっても、前段階の準備が大変だ。ここまでのログで Hadoopの開発環境の構築 JavaプログラムによるTweetの取得 JavaプログラムとMecabによるTweetの品詞分解（語句の抽出） Amazon EC2上でのHadoopの…

2013-06-24

Amazon Elastic Compute Cloud(EC2)にHadoop実行環境を構築する。

ビッグデータ BigData クラウド hadoop aws EC2

EC2上にHadoopをインストールする手順は、たくさん記事にされているが、備忘のためログにしておく。「kj-kiのはてなダイアリー：疑似分散モードでHadoopインストール」を参考にさせていただいた。スケールアウトのメリットを測定することが当面の目的ではな…

2013-06-23

Twitterから取得した「つぶやき」を品詞に分解する

ビッグデータ BigData クラウド hadoop eclipse Twitter mecab

前回のログで、TwitterからTweetとアカウント名称を取得した。「エコノミスト」誌（6/4号）の特集記事のように、Tweetに含まれる語句のワードカウントをとるには、先のデータを品詞分解（形態素解析）しなければならない。ここでは、形態素解析エンジンとし…

2013-06-22

Twitterからつぶやきを取得する。

ビッグデータ BigData クラウド hadoop eclipse Twitter

「エコノミスト誌（6/4号；使える統計学）」で特集を組んだ「Twitterのつぶやきから景気動向指数を推定する」についてだが、第一ステップの簡単な絵を書くと、以下のようになる。 NTTデータさんが、Twitterの全データの取得権を持っている（これは、「権利を…

2013-06-21

EclipseにHadoopの開発環境を作る。

ビッグデータ BigData クラウド hadoop eclipse

2014/6/13 新しい記事があります。「EclipseでHadoop2.4の開発環境を作る＆ワードカウントのプログラムを作成する。」 - Hadoopを実験するにあたって、プログラムが作れる環境を構築した。構築には、「30 分で NetBeans を使って Hadoop のプログラムを作…

2013-06-18

エコノミスト誌「使える統計学」：ビッグデータを真面目に考える

ビッグデータ BigData クラウド

数年前から「ビッグデータ」という言葉をよくきく。Googleの影響が大きいことことに加え、Amazon Web Service(AWS)や、GFSやMapReduceのオープンソースソフトウェア（Apache Hadoop）といった実行環境が使えるものになってきて、「Googleが実現したことを身…