はじめに
この記事はmecab-python3で分かち書き・形態素解析|Pythonの続きです
前回、unidic-liteで形態素解析を行ったが、今回はunidicをインストールする
unidicのインストール
pip3 installだけではインストールは完了しないので注意
$ pip3 install unidic
$ python3 -m unidic download
unidicがmecabに認識されているか確かめる
import MeCab
tagger = MeCab.Tagger()
info = tagger.dictionary_info()
# print(type(info))
print('辞書のファイルパス:', info.filename)
print('version:', info.version)
print('文字セット:', info.charset)
print('単語数:', info.size)
print('左属性のサイズ', info.lsize)
print('右属性へのサイズ:', info.rsize)
print('次の辞書へのポインタ:', info.next)
辞書のファイルパスがunidic-liteではなくunidicになっていればOK
実行結果
辞書のファイルパス: .../mecabtest/venv/lib/python3.12/site-packages/unidic/dicdir/sys.dic
version: 102
文字セット: utf8
単語数: 878989
左属性のサイズ 15626
右属性へのサイズ: 15388
次の辞書へのポインタ: None
(参考)unidic-liteの場合
辞書のファイルパス: .../mecabtest/venv/lib/python3.12/site-packages/unidic_lite/dicdir/sys.dic
version: 102
文字セット: utf8
単語数: 756264
左属性のサイズ 5981
右属性へのサイズ: 5981
次の辞書へのポインタ: None
ちなみにファイルサイズでは、unidicが820MB、unidic-liteが260MBほどだった
辞書の切り替え方
MeCab.Taggerクラスのインスタンスを生成するときに、-dオプションで辞書のパスを指定する
何も指定しない場合は、unidic(liteではない方)が使用された
tagger = MeCab.Tagger("-d .../mecabtest/venv/lib/python3.12/site-packages/unidic_lite/dicdir")
続き→mecab-python3で形態素解析した文をリストに格納する|Python
参考にしたサイト
unidic 1.1.0 https://pypi.org/project/unidic/
コメントを残す