MeCabはオープンソースの形態素解析器です。形態素解析というのは、文章を分かち書きすることです。MeCabは、辞書を使って形態素解析を行います。MeCab用の辞書としては、
- mecab-ipadic
- naist-jdic
- UniDic
- mecab-ipadic-neologd
等があります。
本記事では、Amazon LinuxでのMeCabとipadicのセットアップ手順を説明します。
Development Toolsのインストール
Development Toolsをインストールします。
# yum groupinstall "Development Tools"
MeCabのインストール
MeCabをインストールします。MeCabのページからブラウザでmecab-0.996.tar.gzをダウンロードし、Amazon Linuxにアップロードします。
# tar xvfz mecab-0.996.tar.gz # cd mecab-0.996 # ./configure --enable-utf8-only # make # make check # make install
mecab-ipadicのインストール
mecab-ipadicをインストールします。MeCabのページからブラウザでmecab-ipadic-2.7.0-20070801.tar.gzをダウンロードし、Amazon Linuxにアップロードします。
# tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz # cd mecab-ipadic-2.7.0-20070801 # ./configure --with-charset=utf8 # make # make install
最後にmecabを起動して形態素解析を試してみます。
# mecab すもももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS