mecab-python3で辞書をunidic-liteからunidicに変える|Python

42 アクセス

はじめに

この記事はmecab-python3で分かち書き・形態素解析|Pythonの続きです
前回、unidic-liteで形態素解析を行ったが、今回はunidicをインストールする

unidicのインストール

pip3 installだけではインストールは完了しないので注意

unidicがmecabに認識されているか確かめる

import MeCab

tagger = MeCab.Tagger()

info = tagger.dictionary_info()

# print(type(info))

print('辞書のファイルパス:', info.filename)
print('version:', info.version)
print('文字セット:', info.charset)
print('単語数:', info.size)
print('左属性のサイズ', info.lsize)
print('右属性へのサイズ:', info.rsize)
print('次の辞書へのポインタ:', info.next)

辞書のファイルパスがunidic-liteではなくunidicになっていればOK

実行結果

(参考)unidic-liteの場合

ちなみにファイルサイズでは、unidicが820MB、unidic-liteが260MBほどだった

辞書の切り替え方

MeCab.Taggerクラスのインスタンスを生成するときに、-dオプションで辞書のパスを指定する
何も指定しない場合は、unidic(liteではない方)が使用された

tagger = MeCab.Tagger("-d .../mecabtest/venv/lib/python3.12/site-packages/unidic_lite/dicdir")

続き→mecab-python3で形態素解析した文をリストに格納する|Python

参考にしたサイト

unidic 1.1.0 https://pypi.org/project/unidic/

Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です