テキストデータの有効活用方法に悩んでいませんか。そのようなときは、形態素解析でテキストを分析しましょう。
本記事では、これからテキスト分析をする人向けに、形態素解析の概要、仕組み、形態素解析ツール9選を紹介します。
形態素解析とは?
形態素解析とは、自然言語処理で最初に行われる行程です。
形態素解析では、文章を意味の最小単位である形態素に分割し、それぞれの品詞や基本形を対応させます。
形態素解析は、後の構文解析、意味解析、文脈解析のために行われます。これらの行程を経ることで、自然言語をコンピュータに理解させることができます。
英語の場合、単語ごとに空白があるので、どこで単語が区切れるかを簡単に分析できます。
一方、日本語は、単語同士が連続しているため、形態素解析が難しいです。そのため、自分で形態素解析のルールを作成するのではなく、既存の形態素解析ツールを利用することが一般的です。
形態素解析を含む、自然言語処理全体の流れを確認したい方は、下の記事をご覧ください。
形態素解析の仕組み
実際に以下の文章を形態素解析しながら、形態素解析の流れを説明します。
私はこれから遠足に行きます。
上の例文を形態素に分解すると以下のようになります。
私/は/これ/から/遠足/に/行き/ます/。
次に、形態素ごとに品詞を対応させます。
私(代名詞)/は(助詞)/これ(代名詞)/から(助詞)/遠足(名詞)/に(助詞)/行き(動詞)/ます(助動詞)/。(記号)
このように、形態素解析では、まず、文章を形態素に分解し、形態素ごとに品詞を対応させます。
形態素解析ツール9選
形態素解析は、自然言語処理で最初に行う手順です。形態素解析することで、その後、適切にテキストを分析できるようになります。
例えば、テキストから書き手の感情を分析することで、自社の商品の評価がわかります。また、チャットボットの開発にも形態素解析が使われています。
以下では、このような自然言語処理に欠かせない形態素解析を、自動で行うツールを9つ紹介します。
MeCab
MeCabは、京都大学と日本電信通信株式会社コミュニケーション科学基礎研究所が開発したフリーソフトウェアです。
MeCabは、さまざまな辞書を利用できます。
また、C言語、Java、Python、Rなど幅広いプログラミング言語で実装できます。
このように、MeCabはは汎用性が高いため、日本で広く利用されている形態素解析ソフトウェアです。
MeCab公式サイト:https://taku910.github.io/mecab/
Janome
Janomeは、Pythonで書かれた形態素解析器です。
他のライブラリなしで簡単に利用できるため、MeCab同様、扱いやすい形態素解析ツールです。
Janomeは、辞書が内包されているため、辞書をインストールせずとも利用可能です。もちろん、ユーザー辞書を使うこともできます。
また、APIがシンプルで扱いやすいです。APIとは、Application Programming Interfaceの略で、ソフトウェアの機能の一部を他のプログラムでも利用するための仕組みです。例えば、JanomeのAPIを利用することで、自分が作成したプログラム内でJanomeの形態素解析ができるようになります。
Janome公式サイト:https://mocobeta.github.io/janome/
JUMAN
JUMANは、京都大学によって開発された日本語の形態素解析ツールです。コンピュータによる日本語解析の研究に使用できるツールとして開発されました。
利用者が文法の定義や単語間の関係性の定義などを簡単に変更できるように考慮されています。
現在では、JUMANをさらに性能が向上させたJUMAN++が利用できます。
JUMAN++公式サイト:https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
Yahoo!JAPANテキスト解析 Web API
LINEヤフー社 は、日本語を形態素解析するWeb APIを提供しています。
このAPIを利用することで、形態素解析の他にも、ルビ振り、校正支援、日本語係り受け解析、キーフレーズ抽出、自然言語理解などが可能です。
Yahoo!JAPANテキスト解析公式サイト:https://developer.yahoo.co.jp/webapi/jlp/
gooラボ
NTTドコモのgooラボでは、形態素解析APIを提供しています。
gooラボでは形態素解析の他にも、固有表現抽出、キーワード抽出、ひらがな化などができるAPIを提供しています。
gooラボ公式サイト:https://labs.goo.ne.jp/api/jp/morphological-analysis/
TinySegmenter
TinySegmenterは、JavaScriptで書かれた日本語形態素解析ソフトウェアです。25kバイトという少ないデータ量で、高精度の形態素解析ができることが特徴です。
TinySegmenter公式サイト:http://chasen.org/~taku/software/TinySegmenter/
RakutenMA
RakutenMAは、楽天が開発した日本語・中国語用形態素解析ツールです。MeCabの辞書と互換性があります。
また、JavaScriptで書かれているため、ほとんどのブラウザで使用できます。
オンライン機械学習を利用して、解析モデルのアップデートも可能です。
RakutenMA公式サイト:https://github.com/rakuten-nlp/rakutenma/blob/master/README-ja.md
kuromoji
Atilika社では、Javaで書かれた日本語形態素解析エンジンkuromojiを提供しています
kuromojiは検索に適した「検索モード」があり、検索しやすいように形態素解析ができます。
また、kuromojiは、ipadic、jumandic、unidicなど多くの辞書に対応しています。
kuromoji公式サイト:https://www.atilika.com/ja/kuromoji/
NLTK (Natural Language Toolkit)
NLTK (Natural Language Toolkit)は、Pythonの自然言語処理ライブラリで、多言語に対応した形態素解析機能を含んでいます。
NLTKは、わかりやすいチュートリアルも利用できるため、学生や教師、研究者、エンジニアなど幅広いユーザーに利用されています。
NLTK公式サイト:https://www.nltk.org
MeCabでの形態素解析
MeCabは、日本語の形態素解析に広く使用されるツールで、高速かつ高精度な解析が可能です。以下は、MeCabを使用して実際に形態素解析を行う基本的な手順です。
まず、MeCabをpythonで利用するために、mecab-python3と辞書unidic-liteをインストールします。
# pythonでMeCabを利用するために、macab-python3をインストールします
!pip install mecab-python3
# 辞書をインストールします。別の辞書も利用できます。
!pip install unidic-lite
では、実際に、形態素解析する文章を入力します。
今回は、上の例と同様「私はこれから遠足に行きます。」という文章を形態素解析します。
# MeCabをimportします。
import MeCab
# "-Owakati"はMeCabの出力モードを表します。"-Owakati"では、分かち書きのみを出力します。
text = MeCab.Tagger("-Owakati")
text.parse("私はこれから遠足に行きます。").split()
この結果は以下のように出力されます。
[‘私’, ‘は’, ‘これ’, ‘から’, ‘遠足’, ‘に’, ‘行き’, ‘ます’, ‘。’]
それぞれの形態素に品詞を対応させます。
tagger = MeCab.Tagger()
print(tagger.parse("私はこれから遠足に行きます。"))
私 ワタクシ ワタクシ 私-代名詞 代名詞 0
は ワ ハ は 助詞-係助詞
これ コレ コレ 此れ 代名詞 0
から カラ カラ から 助詞-格助詞
遠足 エンソク エンソク 遠足 名詞-普通名詞-一般 0
に ニ ニ に 助詞-格助詞
行き イキ イク 行く 動詞-非自立可能 五段-カ行 連用形-一般 0
ます マス マス ます 助動詞 助動詞-マス 終止形-一般
。 。 補助記号-句点
EOS
このように、品詞だけでなく、読み方、活用形があるものは終止形の形、今回の活用形も形態素解析によって分析されます。
データサイエンスを学習するならTech Teacherで!
『Tech Teacher』3つの魅力
魅力1. オーダーメイドのカリキュラム
『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。
魅力2. 担当教師によるマンツーマン指導
Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。
魅力3. 3,960円/30分で必要な分だけ受講
Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。
まとめ
・魅力1. 担当教師によるマンツーマン指導
・魅力2. オーダーメイドのカリキュラム
・魅力3. 3,960円/30分で必要な分だけ受講
質問のみのお問い合わせも受け付けております。
『Tech Teacher』3つの魅力
魅力1. オーダーメイドのカリキュラム
『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。
魅力2. 担当教師によるマンツーマン指導
Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。
魅力3. 3,960円/30分で必要な分だけ受講
Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。
まとめ
・魅力1. 担当教師によるマンツーマン指導
・魅力2. オーダーメイドのカリキュラム
・魅力3. 3,960円/30分で必要な分だけ受講
質問のみのお問い合わせも受け付けております。
まとめ
形態素解析は、文章を言語の最小単位である形態素に分割し、それぞれの品詞を識別するプロセスです。形態素解析をすることで、コンピュータにテキストデータの意味を理解させ、より高度な言語処理タスクを実行できます。
現在、さまざまな形態素解析ツールが開発されています。これらのツールは、それぞれ特有の特徴と機能を持ち、用途や対象言語に応じて選択されます。
簡単に利用できる形態素解析ツールもありますので、興味を持った方は実際に、ツールに触れてみると良いでしょう。