NTTドコモがビッグデータを売り出したインパクト：解説

ビッグデータ BigData

読売新聞の朝刊（2013年9月13日）の経済面に「ドコモのビッグデータどう使う？」という記事が出た。以下は抜粋。国内最大の携帯電話会社、NTTドコモは、携帯電話利用者の位置情報などがわかるビッグデータ（人口情報）を１０月から販売する。新たな経済活…

2013-09-14

30分でできる分散レコメンデーション：パラメータを変更して、応用できるようにする。

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce Amazon EMR クラウドレコメンデーション協調フィルタリング

仕事が忙しくて、更新に間があいてしまった。前々回、前回のログでApache Mahout0.7で実装されている「Parallel ALS (Parallel Alternating Least Squares）アルゴリズム」をつかって、とても簡便にスケーラブルなリコメンデーションエンジンを構築してみた…

2013-08-28

30分でできる分散レコメンデーション：パラメータを決定する。

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce Amazon EMR クラウドレコメンデーション協調フィルタリング

先のログでは、Parallel ALS(Alternating Least Squares）による分散レコメンデーション環境を手っ取り早く用意して、チェコスロバキアの「Libimseti.czという出会い系サイト（http://www.libimseti.cz/）」の1700万件の評価データで、分散レコメンデーショ…

2013-08-27

Amazon EMRでMahoutのレコメンデーションのワクワク感を体験する：30分でできる分散レコメンデーション

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce Amazon EMR クラウドレコメンデーション協調フィルタリング

追記：2013/9/17 このログの続編の投稿が完了しましたので、記事の末にリンクを追加しました。これで、このログの方法を応用した分散レコメンデーションエンジンの構築もばっちり（のはず）です。先のログでは、Parallel ALS(Alternating Least Squares)を…

2013-08-18

Apache Mahoutの分散次元縮約（Parallel ALS）を解説しよう。

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce レコメンデーション協調フィルタリング

さて、前回のログでは、Mahout 0.7に付属する「factorize-movielens-1M.sh」というサンプルをつかって、Pararell ALSというアルゴリズムを動かしてみた。少し誉めすぎた感が否めないので、原論文「Large-scale Parallel Collaborative Filtering for the Ne…

2013-08-17

Amazon Elastic MapReduceで、Apache Mahoutの分散次元縮約（Parallel ALS）を動かす

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce Amazon AWS Amazon Elastic MapReduce レコメンデーション協調フィルタリング

さて、夏休みもそろそろ終わり。総力（自分のですが）を結集して、一仕事してみたいと思います。今回のログでは、MahoutのサンプルにあるParallel ALS（という次元縮約の分散計算アルゴリズム）を使ったジョブを動かしてみる。Mahoutに、Parallel ALS(Altern…

2013-08-16

Amazon Elastic MapReduceで、Apache Mahout 0.8のクラスタリングを総ざらいする（まとめ）

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce Amazon AWS Amazon Elastic MapReduce 統計学 Statistics

先のログでは、Apache Mahout 0.8のサンプルにあるcluster-syntheticcontrol.shを用いて、「k-means法」によるクラスタリングについて詳しくみた。同shellでは、他にもいくつかのクラスタリング手法（アルゴリズム）を試すことができる。今回のログでは、残…

2013-08-15

Amazon Elastic MapReduceで、Apache Mahout 0.8のk-meansクラスタリングを実行する。

ビッグデータ BigData mahout 機械学習 Machine Learning Hadoop MapReduce Amazon AWS Amazon Elastic MapReduce 設定

先のログでは、MahoutをLocal環境（Mac OSX Mountain Lion）で実行した。今回は、Amazon Elastic MapReduce（EMR）＋Hadoop MapReduceで、k-meansクラスタリングを動かしてみたい。 Mahoutのバージョンは、0.8で行った。EMRの構成は、m1.smallが２台の最小構…

2013-08-14

Apache Mahoutの開発環境を作成する。

ビッグデータ BigData mahout 機械学習 Machine Learning 設定

今回は、Eclipse（Juno）でMahoutの開発環境を作成し、「Mahout in Action」にある協調フィルタリング（リコメンデーション）のサンプルを動かしてみる。Mahoutイン・アクション作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman,伊東直子,真鍋加奈子,…

2013-08-06

Apache Mahoutをローカル環境で実行する。

ビッグデータ BigData mahout 機械学習 Machine Learning 設定

統計学的な話と平行して、機械学習についても進めて行きたかったのであるが、Hadoop MapReduceを使っての相関行列計算にかなりの時間を割いてしまった。今回のログでは、Apache Mahoutをローカル環境で実行してみる。 Apache Mahoutのバージョンは0.7。ロー…

2013-08-05

まとめ：Hadoop Mapreduceで大きな相関行列（行列の積）を計算する。(Summery : Calculating Large Correlation Matrix with Hadoop MapReduce）

ビッグデータ BigData クラウド hadoop 統計学 statistics 機械学習 Machine Learning

今回のログで、密な行列同士の乗算を一旦終わりにしたいと思う。この話題については、物理の方に論文がありそうなので、そちらをチェックする予定。Fast Multipole Methodなどの論文を、「チラ見」すると、確かに天体物理や磁場を研究する人たちに、大きな…

2013-08-03

サプライ・チェーン・マネージメントと在庫削減

オペレーション・マネージメント生産管理論

本日は、過去に書いたブログからの再掲です。原著は2006/9/17に別のブログに掲載していたものです。====================================先日、久しぶりに（数年前まで生産管理システムを担当していた）製造現場に行ってきました。私が、生産管理のカスタ…

2013-08-02

読売新聞（2013/8/1）コンビニ新時代について

ビッグデータ BigData クラウド hadoop 統計学 statistics

ビッグデータの記事がまた新聞に掲載された。さて、「ポイントカード」ってなんなのだろう。「コンビニ大手はポイントカードを使って、年間１５０億人の購買履歴のビッグデータをもとに、品揃えなどに反映させている。 … ファミマがTSUTAYAと提携する「Tポ…

2013-07-31

Hadoop MapReduceで大きな相関行列を計算する（Calculate Large Correlation Coefficient Matrix with Hadoop MapReduce)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

前回までのログで、観測値行列から相関行列を求めるための一通りの仕組みができた。この開発をスタートするときに、以下の目標を立てた。実行時間の目標：以下のクラスターを用い、5000変量で、各変量につき5000サンプルあるとして1時間以内での計算を行う…

2013-07-30

Hadoop MapReduceで相関行列を計算する：ステップ７・８：相関行列を計算する (step7&8: calculate correlation coefficient matrix)

ビッグデータ BigData クラウド hadoop 統計学 statistics

前回のログで、共分散行列まで計算ができた。今回はいよいよ相関行列を計算する。相関行列の計算式は以下である。ただし、である。この対角行列はステップ３・４で計算した。ステップ７・８にあたる「共分散行列の前後に、対角行列をかける」については、…

2013-07-29

Hadoop MapReduceで相関行列を計算する：ステップ６：共分散行列を計算する (step6: calculate covariance matrix)

ビッグデータ統計学 statistics

前回までのログでを計算することができた。（注記：正確には、不偏分散を使用しているため、n-1で除算している：ステップ５）ステップ６では共分散行列を計算する。（注記：正確には、不偏分散を使用しているため、n-1で除算している：ステップ５）この…

2013-07-27

Hadoop MapReduceで相関行列を計算する：ステップ５：観測値の平均からの偏差を求める (step5: subtract means from samples in matrix form)

ビッグデータ BigData クラウド hadoop 統計学 statistics

MapReduceで大きな（5000変量〜）相関行列を求めるプログラム作りも、ようやく折り返し地点。今日は、行列を算出するステップのコードを作成する。。注記；標準偏差の算出に不偏分散を用いたので、スケールを合わせるため、サンプルサイズ（n）−１の平方…

2013-07-26

Hadoop MapReduceで相関行列を計算する：ステップ３：対角化、ステップ４：逆行列の算出 (step3: making diagonal matrix from standard deviations, step4: inverse matr

ビッグデータ BigData クラウド hadoop 統計学 statistics

前回までで、Hadoop MapReduceによって観測値の平均と標準偏差を算出した。今回のログでは、標準偏差を対角要素としてもつ行列とその逆行列を計算する。話を進めるにあたり、少しだけ式を書かなければならない。まず、対角行列とは、以下のフォーマットを満…

2013-07-25

Hadoop MapReduceで相関行列を計算する：ステップ２：標準偏差の算出 (step2: calculating standard deviations)

ビッグデータ BigData クラウド hadoop 統計学 statistics

今回は、前回に引き続き、第２ステップとして、変量ごとの標準偏差を計算するプログラムを実装する。以前のログでも、多変量の場合の標準偏差の計算を実装したが、以下のようにデータ形式を変更したので、過去に作成したプログラムを修正することとする。行…

2013-07-24

Hadoop MapReduceで相関行列を計算する：ステップ１：平均値の算出 (step1: calculating means of observation )

ビッグデータ BigData クラウド hadoop 統計学 statistics

少し間が開いてしまったが、以前のログの続きで「相関行列」を求める一連の処理を実装する。なぜ、相関行列を求めることに固執しているか、といえば、統計学的には多変量解析の一番基本的な量であるし、また、機械学習のエリアでも登場する量であるから。今…

2013-07-22

レコメンデーションとクラスタリングを例にして「密な行列」と「疎な行列」について説明する

ビッグデータ BigData hadoop mahout 統計学 statistics 機械学習 Machine Learning

ここまでのログでは、Hadoop MapReduceで「密な行列（Dense Matrix）」の行列積を計算することを考えてきた。多変量解析の多くは「密な行列」を仮定しておけば、理論的な演算に問題が生じることはない（これが、「密」にこだわってきた理由）。ただ、機械学…

2013-07-20

JR東日本がSuica情報を売り出したことと、Hadoop MapReduceの実力

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

話が脇道にそれてしまうが、2013/7/18の読売新聞の記事を見て驚いた。１面トップに「Suica履歴売り出す JR東日本」。どんな情報を売り出したのだろうと読んでみたところ、提供データは私鉄を含む首都圏約1800駅の利用者の性別、年齢、乗降日時。定期券とし…

2013-07-19

Hadoop MapReduceで相関行列を計算する。Roadmap for Calculating Large Correlation Coefficient Matrix based on Dense Matrix Multiplication with Hadoop MapReduce

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

今回から、数回に分けて変量間の相関行列（Peason相関係数が並んだ行列）を求めていく。注記；以前のログにも書いたが、Apache Mahoutの協調フィルタリングの実装には、Pearson相関係数によるSimilarity（類似度）計算が含まれている。このブログで示す結…

2013-07-18

Hadoop MapReduceで行列積を計算する（ケース２）（Dense Matrix Multiplication with Hadoop MapReduce: Case2)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

前回のログでは、Case1として行列積の演算プログラムを示した。しかしながら、5000行5000列の行列同士の演算に6時間以上の時間がかかってしまい、これでは「ビッグデータ」の探索的な分析では使えないだろう。これまで、再三引用している「エコノミスト誌（…

2013-07-17

Hadoop MapReduceで行列積を計算する（ケース１）（Dense Matrix Multiplication with Hadoop MapReduce: Case1)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

前回のログで、MapReduceのパラダイムにおいて、行列積の演算がかならずしもMapReduceのパラダイムに適合したものでないことと、「行列積を求めるという行為」についてのインターネット上での評価を紹介した。今回から２回のログに分けて、２パターンの行列…

2013-07-16

Hadoop MapReduceで行列積を計算する（Introduction to Dense Matrix Multiplication with Hadoop MapReduce)

ビッグデータ BigData クラウド hadoop 統計学 statistics

前回までのログで、観測値（変量：m、サンプルサイズ：n）について、平均、分散、標準偏差を、mとnの両方についてスケーラブルなプログラムに落とし込むことができたように思う。今回から数回に分けて、Hadoop MapReduceのパラダイムで行列積（Dense Matrix …

2013-07-12

Hadoop MapReduce: 平均、分散、標準偏差計算のスケーラビリティー評価(Amazon EMR)

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

今回のログでは、先の２回のログ（標本平均、分散・標準偏差）で作成したプログラムのスケーラビリティーを、Amazon Elastic MapReduceで評価してみたい。変量をm、サンプルサイズをnとすると、普通の統計の世界では、m 国勢調査などを考えると、家族構成や…

2013-07-11

Hadoop MapReduceで分散と標準偏差をスケーラブルに計算する

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

先のログで、標本平均を求めたので、今回は（多変量の場合について）分散と標準偏差を計算するプログラムを作成し、Amazon Elastic MapReduce(EMR)で実行してみる。開発環境は、Mac OSX Mountain Lion。Hadoopのバージョンは1.1.2である。（Amazon EMRのバー…

2013-07-09

Hadoop MapReduceで標本平均をスケーラブルに計算する

ビッグデータ BigData クラウド hadoop amazon elastic mapreduce aws emr 統計学 statistics

Hadoop2を使った新しい記事があります。 Amazon Elastic MapReduce : Hadoop2.4環境で標本平均を計算する（Ruby Client）。 Amazon Elastic MapReduce : Hadoop2.4環境で100万変量（10GB）の算術平均を計算する。 - 今回は、ありきたりではあるが、MapReduce…

2013-07-08

エコノミスト誌（6/4号；使える統計学）を考察するための統計学的な量について

ビッグデータ BigData 統計学 statistics

今回は、先のログの続きとして、エコノミスト誌の記事（6/4号；使える統計学）を統計学的に表現する前準備として、基本的な統計量を示しておく。変量と観測データは、先のログと同じに以下の表のように表現されるとする。ここで、列は変量を表し、行はサン…

tetsuya_odakaの日記

2013-01-01から1年間の記事一覧

NTTドコモがビッグデータを売り出したインパクト：解説

30分でできる分散レコメンデーション：パラメータを変更して、応用できるようにする。

30分でできる分散レコメンデーション：パラメータを決定する。

Amazon EMRでMahoutのレコメンデーションのワクワク感を体験する：30分でできる分散レコメンデーション

Apache Mahoutの分散次元縮約（Parallel ALS）を解説しよう。

Amazon Elastic MapReduceで、Apache Mahoutの分散次元縮約（Parallel ALS）を動かす

Amazon Elastic MapReduceで、Apache Mahout 0.8のクラスタリングを総ざらいする（まとめ）

Amazon Elastic MapReduceで、Apache Mahout 0.8のk-meansクラスタリングを実行する。

Apache Mahoutの開発環境を作成する。

Apache Mahoutをローカル環境で実行する。

まとめ：Hadoop Mapreduceで大きな相関行列（行列の積）を計算する。(Summery : Calculating Large Correlation Matrix with Hadoop MapReduce）

サプライ・チェーン・マネージメントと在庫削減

読売新聞（2013/8/1）コンビニ新時代について

Hadoop MapReduceで大きな相関行列を計算する（Calculate Large Correlation Coefficient Matrix with Hadoop MapReduce)

Hadoop MapReduceで相関行列を計算する：ステップ７・８：相関行列を計算する (step7&8: calculate correlation coefficient matrix)

Hadoop MapReduceで相関行列を計算する：ステップ６：共分散行列を計算する (step6: calculate covariance matrix)

Hadoop MapReduceで相関行列を計算する：ステップ５：観測値の平均からの偏差を求める (step5: subtract means from samples in matrix form)

Hadoop MapReduceで相関行列を計算する：ステップ３：対角化、ステップ４：逆行列の算出 (step3: making diagonal matrix from standard deviations, step4: inverse matr

Hadoop MapReduceで相関行列を計算する：ステップ２：標準偏差の算出 (step2: calculating standard deviations)

Hadoop MapReduceで相関行列を計算する：ステップ１：平均値の算出 (step1: calculating means of observation )

レコメンデーションとクラスタリングを例にして「密な行列」と「疎な行列」について説明する

JR東日本がSuica情報を売り出したことと、Hadoop MapReduceの実力

Hadoop MapReduceで相関行列を計算する。Roadmap for Calculating Large Correlation Coefficient Matrix based on Dense Matrix Multiplication with Hadoop MapReduce

Hadoop MapReduceで行列積を計算する（ケース２）（Dense Matrix Multiplication with Hadoop MapReduce: Case2)

Hadoop MapReduceで行列積を計算する（ケース１）（Dense Matrix Multiplication with Hadoop MapReduce: Case1)

Hadoop MapReduceで行列積を計算する（Introduction to Dense Matrix Multiplication with Hadoop MapReduce)

Hadoop MapReduce: 平均、分散、標準偏差計算のスケーラビリティー評価(Amazon EMR)

Hadoop MapReduceで分散と標準偏差をスケーラブルに計算する

Hadoop MapReduceで標本平均をスケーラブルに計算する

エコノミスト誌（6/4号；使える統計学）を考察するための統計学的な量について