Machine Learning

30分でできる分散レコメンデーション:パラメータを変更して、応用できるようにする。

仕事が忙しくて、更新に間があいてしまった。前々回、前回のログでApache Mahout0.7で実装されている「Parallel ALS (Parallel Alternating Least Squares)アルゴリズム」をつかって、とても簡便にスケーラブルなリコメンデーションエンジンを構築してみた…

30分でできる分散レコメンデーション:パラメータを決定する。

先のログでは、Parallel ALS(Alternating Least Squares)による分散レコメンデーション環境を手っ取り早く用意して、チェコスロバキアの「Libimseti.czという出会い系サイト(http://www.libimseti.cz/)」の1700万件の評価データで、分散レコメンデーショ…

Amazon EMRでMahoutのレコメンデーションのワクワク感を体験する:30分でできる分散レコメンデーション

追記:2013/9/17 このログの続編の投稿が完了しましたので、記事の末にリンクを追加しました。これで、このログの方法を応用した分散レコメンデーションエンジンの構築もばっちり(のはず)です。 先のログでは、Parallel ALS(Alternating Least Squares)を…

Apache Mahoutの分散次元縮約(Parallel ALS)を解説しよう。

さて、前回のログでは、Mahout 0.7に付属する「factorize-movielens-1M.sh」というサンプルをつかって、Pararell ALSというアルゴリズムを動かしてみた。 少し誉めすぎた感が否めないので、原論文「Large-scale Parallel Collaborative Filtering for the Ne…

Amazon Elastic MapReduceで、Apache Mahoutの分散次元縮約(Parallel ALS)を動かす

さて、夏休みもそろそろ終わり。総力(自分のですが)を結集して、一仕事してみたいと思います。今回のログでは、MahoutのサンプルにあるParallel ALS(という次元縮約の分散計算アルゴリズム)を使ったジョブを動かしてみる。Mahoutに、Parallel ALS(Altern…

Amazon Elastic MapReduceで、Apache Mahout 0.8のクラスタリングを総ざらいする(まとめ)

先のログでは、Apache Mahout 0.8のサンプルにあるcluster-syntheticcontrol.shを用いて、「k-means法」によるクラスタリングについて詳しくみた。同shellでは、他にもいくつかのクラスタリング手法(アルゴリズム)を試すことができる。今回のログでは、残…

Amazon Elastic MapReduceで、Apache Mahout 0.8のk-meansクラスタリングを実行する。

先のログでは、MahoutをLocal環境(Mac OSX Mountain Lion)で実行した。今回は、Amazon Elastic MapReduce(EMR)+Hadoop MapReduceで、k-meansクラスタリングを動かしてみたい。 Mahoutのバージョンは、0.8で行った。EMRの構成は、m1.smallが2台の最小構…

Apache Mahoutの開発環境を作成する。

今回は、Eclipse(Juno)でMahoutの開発環境を作成し、「Mahout in Action」にある協調フィルタリング(リコメンデーション)のサンプルを動かしてみる。Mahoutイン・アクション作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman,伊東直子,真鍋加奈子,…

Apache Mahoutをローカル環境で実行する。

統計学的な話と平行して、機械学習についても進めて行きたかったのであるが、Hadoop MapReduceを使っての相関行列計算にかなりの時間を割いてしまった。今回のログでは、Apache Mahoutをローカル環境で実行してみる。 Apache Mahoutのバージョンは0.7。ロー…

まとめ:Hadoop Mapreduceで大きな相関行列(行列の積)を計算する。(Summery : Calculating Large Correlation Matrix with Hadoop MapReduce)

今回のログで、密な行列同士の乗算を一旦終わりにしたいと思う。 この話題については、物理の方に論文がありそうなので、そちらをチェックする予定。Fast Multipole Methodなどの論文を、「チラ見」すると、確かに天体物理や磁場を研究する人たちに、大きな…

レコメンデーションとクラスタリングを例にして「密な行列」と「疎な行列」について説明する

ここまでのログでは、Hadoop MapReduceで「密な行列(Dense Matrix)」の行列積を計算することを考えてきた。多変量解析の多くは「密な行列」を仮定しておけば、理論的な演算に問題が生じることはない(これが、「密」にこだわってきた理由)。 ただ、機械学…