mecab-python3で分かち書き・形態素解析|Python

4 アクセス

はじめに

この記事はMecab-Python3で辞書情報を表示するの続きです
今回は実際に分かち書き、形態素解析を行った

分かち書き

分かち書きとは、単語と単語の間に空白を入れて記述する書き方のこと。

サンプルコード

import MeCab

tagger_wakati = MeCab.Tagger("-Owakati")
wakati = tagger_wakati.parse("これは分かち書きのテストです")
print(type(wakati))
print(wakati)
print(wakati.split())

MeCab.Taggerの引数に”-Owakati”を指定してインスタンスを生成する
文章を引数にして、parseメソッドを実行すると結果がstr型で返ってくる
str型なので、splitメソッドでリストにすることができる

実行結果

形態素解析

形態素解析とは、文を単語に分け、さらに品詞などを判別する解析のこと

MeCabでは、表層形、品詞、品詞細分類1~3、活用型、活用形、原型、読み、発音が出力される

サンプルコード

import MeCab

tagger_keitaiso = MeCab.Tagger()
keitaiso = tagger_keitaiso.parse("これは形態素解析のテストです")
print(type(keitaiso))
print(keitaiso)

実行結果

<class 'str'>
これ	コレ	コレ	此れ	代名詞			0
は	ワ	ハ	は	助詞-係助詞			
形態	ケータイ	ケイタイ	形態	名詞-普通名詞-一般		0
素	ソ	ソ	素	接尾辞-名詞的-一般			
解析	カイセキ	カイセキ	解析	名詞-普通名詞-サ変可能		0
の	ノ	ノ	の	助詞-格助詞			
テスト	テスト	テスト	テスト-test	名詞-普通名詞-サ変可能			1
です	デス	デス	です	助動詞	助動詞-デス	終止形-一般	
EOS

MeCabの公式サイト(https://taku910.github.io/mecab/)とは異なる出力フォーマットになった。
原因は辞書の違い(unidic-liteを使用中)かもしれないので、今後調べる。

追記:辞書によって出力フォーマットは異なる模様
続き→mecab-python3で辞書をunidic-liteからunidicに変える|Python

Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です