はじめに
この記事はMecab-Python3で辞書情報を表示するの続きです
今回は実際に分かち書き、形態素解析を行った
分かち書き
分かち書きとは、単語と単語の間に空白を入れて記述する書き方のこと。
サンプルコード
import MeCab
tagger_wakati = MeCab.Tagger("-Owakati")
wakati = tagger_wakati.parse("これは分かち書きのテストです")
print(type(wakati))
print(wakati)
print(wakati.split())
MeCab.Taggerの引数に”-Owakati”を指定してインスタンスを生成する
文章を引数にして、parseメソッドを実行すると結果がstr型で返ってくる
str型なので、splitメソッドでリストにすることができる
実行結果
<class 'str'>
これ は 分かち書き の テスト です
['これ', 'は', '分かち書き', 'の', 'テスト', 'です']
形態素解析
形態素解析とは、文を単語に分け、さらに品詞などを判別する解析のこと
MeCabでは、表層形、品詞、品詞細分類1~3、活用型、活用形、原型、読み、発音が出力される
サンプルコード
import MeCab
tagger_keitaiso = MeCab.Tagger()
keitaiso = tagger_keitaiso.parse("これは形態素解析のテストです")
print(type(keitaiso))
print(keitaiso)
実行結果
<class 'str'>
これ コレ コレ 此れ 代名詞 0
は ワ ハ は 助詞-係助詞
形態 ケータイ ケイタイ 形態 名詞-普通名詞-一般 0
素 ソ ソ 素 接尾辞-名詞的-一般
解析 カイセキ カイセキ 解析 名詞-普通名詞-サ変可能 0
の ノ ノ の 助詞-格助詞
テスト テスト テスト テスト-test 名詞-普通名詞-サ変可能 1
です デス デス です 助動詞 助動詞-デス 終止形-一般
EOS
MeCabの公式サイト(https://taku910.github.io/mecab/)とは異なる出力フォーマットになった。
原因は辞書の違い(unidic-liteを使用中)かもしれないので、今後調べる。
追記:辞書によって出力フォーマットは異なる模様
続き→mecab-python3で辞書をunidic-liteからunidicに変える|Python
コメントを残す