MySQL5.1で日本語全文検索(その2;断念の巻)
腰を据えて、MySQL5.1に日本語FULLTEXTインデックスをBi-Gramで作ることに挑戦。
まず、Wikipediaのデータは大きすぎる上に、mwdumperが、bz2で圧縮されたダンプを、media wikiにインサートするツールだったので、使うのをやめて、20万件のテキストデータ(UTF-8)を作成して実験。
だが、、、、、
先日のログで、導入した西村亜土さんのbigramlib.soもうまくいかない。bi-gramで分かち書きされたインデックスができている風ではない。
氏のページで紹介されている「MySQL full-text parser plugin collection」のbigram-pluginもICU4Cをmakeインストールして導入したが、これも分かち書きされている風でもない。
そもそも考え方がおかしいのかな。
indexはFULLTEXTでできてるんだが、何が正しい状態なのか、確認できないんだよなぁ。
collate(照合順序)をutf8-unicode-ciにすると大文字・小文字の区別がなくなる、とか恥ずかしながら初めて知ったのはありがたかったけど。
現時点で1Mレコードのオーダーのデータの要件はないから、普通のLIKE '%検索語%'にしておこう。
それより、MeCabを入れたから、形態素解析とSennaをやってみよう。
==> 2010/9/4 追記; インストールできました。