日本語形態素解析として話題沸騰中のMeCabをServerに導入して、ごにょごにょしたいと思った今日この頃。
ちなみに、MeCabの
作業手順はとっても簡単。
作業環境は最近おなじみの Rackspace Cloud上のUbuntu Server 8.04です。
Rackspaceの導入なんかは
・Rackspace Cloud に申し込んでみた。
・RackSpace Cloud のインスタンスを起動する
を参考にしてみて下さい。
実際の作業手順なんですが、jkl.lomo.jp » ubuntu9.04 で mecab を Python から使うまで。がまとめてくださっているので、そちらを・・・
少し違う部分もあるので、一応書いてみます
あと、ついでにPythonからMeCabを扱えるようにするためのやつも導入しています
vi /etc/apt/sources.list
deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid allwget http://cl.naist.jp/~eric-n/ubuntu-nlp/8ABD1965.gpg -O- sudo apt-key add -
apt-get update
apt-get install mecab
apt-get install mecab-naist-jdic-utf8
apt-get install libmecab-dev
mecab --version
mecab of 0.98pre3wget http://downloads.sourceforge.net/project/mecab/mecab-python/0.98/mecab-python-0.98.tar.gz
tar xf mecab-python-0.98.tar.gz
cd mecab-python-0.98
apt-get install g++
apt-get install python-dev
python setup.py build
python setup.py install
大体こんな感じ。
これで使えるようになる・・・はず。
環境によってはSudoをつけないとうまくいかないかも。
ちなみにmecab-pythonのフォルダの中に入っているtest.pyは少し修正が必要で、#coding:utf-8をつけてやる必要があります。
そうすればきちんと実行することが出来て
0.98
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー,,
は 助詞,係助詞,*,*,*,*,は,ハ,ワ,,
この 連体詞,*,*,*,*,*,この,コノ,コノ,,
本 名詞,一般,*,*,*,*,本,ホン,ホン,,
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ,,
二 名詞,数,*,*,*,*,二,ニ,ニ,,
郎 名詞,一般,*,*,*,*,郎,ロウ,ロー,,
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ,,