MySQL5.1で日本語全文検索(その2;断念の巻)

腰を据えて、MySQL5.1に日本語FULLTEXTインデックスをBi-Gramで作ることに挑戦。

まず、Wikipediaのデータは大きすぎる上に、mwdumperが、bz2で圧縮されたダンプを、media wikiにインサートするツールだったので、使うのをやめて、20万件のテキストデータ(UTF-8)を作成して実験。

だが、、、、、

先日のログで、導入した西村亜土さんのbigramlib.soもうまくいかない。bi-gramで分かち書きされたインデックスができている風ではない。

氏のページで紹介されている「MySQL full-text parser plugin collection」のbigram-pluginもICU4Cをmakeインストールして導入したが、これも分かち書きされている風でもない。

そもそも考え方がおかしいのかな。
indexはFULLTEXTでできてるんだが、何が正しい状態なのか、確認できないんだよなぁ。

collate(照合順序)をutf8-unicode-ciにすると大文字・小文字の区別がなくなる、とか恥ずかしながら初めて知ったのはありがたかったけど。

現時点で1Mレコードのオーダーのデータの要件はないから、普通のLIKE '%検索語%'にしておこう。
それより、MeCabを入れたから、形態素解析Sennaをやってみよう。

==> 2010/9/4 追記; インストールできました