はじめに
この記事はmecab-python3で形態素解析した文をリストに格納する|Pythonの続き
前回は形態素解析の結果を二次元リストに格納して終了した
今回は実際にそのリストを利用する
形態素解析の結果
形態素解析の結果、1形態素につき30種類の情報が出力されることがわかった(使用した辞書:unidic)
多すぎて全てを理解するのを諦めたので、分かったものだけ以下に記す
- 表層形
- 品詞
- 品詞細分類
- 活用型
- 活用形
- 読み
- 語種
他にも細かい情報はたくさんあるが、使うときがあれば調べたいと思う
最後に、表層形とその品詞を表示するプログラムを作った。前回list型にしたので扱いは簡単。
import MeCab
import re
tagger_keitaiso = MeCab.Tagger()
keitaiso = tagger_keitaiso.parse("これは形態素解析のテストです")
# print(type(keitaiso))
# 改行記号を手がかりに、形態素別へ分割
keitaiso_list = keitaiso.split('\n')
# 1形態素ずつ処理してリストに追加
result = []
for s in keitaiso_list:
if s == 'EOS':
break
result.append(re.split(r'\t|,', s))
# 品詞を出力
for l in result:
print(l[0], l[1])
実行結果
これ 代名詞
は 助詞
形態 名詞
素 接尾辞
解析 名詞
の 助詞
テスト 名詞
です 助動詞
おわりに
次はもっと長い文章の解析を行っていきたい。
コメントを残す