Amazon LinuxでのMeCabのセットアップ

MeCabはオープンソースの形態素解析器です。形態素解析というのは、文章を分かち書きすることです。MeCabは、辞書を使って形態素解析を行います。MeCab用の辞書としては、

  1. mecab-ipadic
  2. naist-jdic
  3. UniDic
  4. mecab-ipadic-neologd

等があります。

本記事では、Amazon LinuxでのMeCabとipadicのセットアップ手順を説明します。

Development Toolsのインストール

Development Toolsをインストールします。

# yum groupinstall "Development Tools"

MeCabのインストール

MeCabをインストールします。MeCabのページからブラウザでmecab-0.996.tar.gzをダウンロードし、Amazon Linuxにアップロードします。

# tar xvfz mecab-0.996.tar.gz
# cd mecab-0.996
# ./configure --enable-utf8-only
# make
# make check
# make install

mecab-ipadicのインストール

mecab-ipadicをインストールします。MeCabのページからブラウザでmecab-ipadic-2.7.0-20070801.tar.gzをダウンロードし、Amazon Linuxにアップロードします。

# tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz
# cd mecab-ipadic-2.7.0-20070801
# ./configure --with-charset=utf8
# make
# make install

最後にmecabを起動して形態素解析を試してみます。

# mecab
すもももももものうち
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS