AIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索・資料請求サイト
TEL
MAIL
03-6452-4750

自然言語処理に欠かせない「形態素解析」とは?代表的なツールを紹介

最終更新日:2021/11/05

自然言語処理とは?具体例と自然言語処理(形態素解析)ツールを解説|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

医療や交通、防犯、農業など、近年はさまざまな業界でAI・人工知能が活用されるようになりました。それは私たちが日常的に使用する「言語」においてもいえることであり、機械翻訳や、かな漢字変換といった「自然言語処理」にも活用されているのです。

今回は、自然言語処理を行うツールの解説や、自然言語処理を行う過程で使用される形態素解析について意味や代表的なツールをご紹介します。

■形態素解析とは

■「形態素解析」とは?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

形態素解析は、自然言語処理(NLP)の一部です。自然言語で書かれている文を、言語において意味を持つ最小の単位(形態素)に細分化し、一つひとつの品詞・変化などを判別していく作業のことを指します。「形態素」は言語学の用語であり、意味を持つ表現要素の最小単位のことなのです。

これだけでは意味が分からない方も多いかと思いますので、先ほどの「黒い目の大きい金魚」という言葉を用いて解説していきます。
この「黒い目の大きい金魚」というフレーズは、「黒い」「目」「の」「大きい」「金魚」という形態素で分割することができるわけです。このように分割していく作業を「形態素解析」と呼びます。

この形態素解析を行うことで意味のある情報の取得ができるようになり、それぞれの形態素に「形容詞」「名詞」「助詞」といった品詞を適切に割り当てていくことが可能になるのです。ただ、どれくらい詳細な品詞を割り当てるかどうかは形態素解析を行うツールの精度によって異なるため、一概に測ることはできません。

●自然言語処理とは

自然言語処理とは、人間が扱っている言語(自然言語)を機械が処理し、内容を抽出していく作業のことです。文章・言葉などのコミュニケーションで用いられる「話し言葉」や、論文に用いられるような「書き言葉」といった自然言語を対象に、言葉が持っている意味を解析していく処理技術のことを指します。

ただ、「そもそも自然言語って何?」と思われる方も決して少なくないでしょう。自然言語とは、私たち人間が日常的に話したり書いたりしている日本語や英語、フランス語といった「自然な言語」のことを指します。この自然言語の対照的な存在が、プログラミング言語です。

プログラミング言語には一切の曖昧性がありませんが、自然言語には曖昧性があるため、その言葉(文字)の意味を正しく理解することは決して簡単なことではありませんでした。
例えば、「黒い目の大きい金魚」という言葉があったとします。この場合、「“目が黒い”“大きな金魚”」というニュアンスにもなりますし、「“黒い色”の“目が大きな金魚”」というニュアンスにもなるわけです。そのため、本来伝えたい意味とは異なって伝わってしまうというケースも少なくありません。

その点、プログラミング言語の場合は、「5+3+1=9」のように、答えがひとつしか存在しません。コンピューターの制御を行うためのプログラムを記述する言語なので、すべてのコンピューターが同じ解釈をすることができるわけです。だからこそ、プログラミングにおいて「コンピューターごとに異なる動きをしてしまう」という事態が引き起こることはありません。

■形態素解析の活用事例

■自然言語処理は「機械可読辞書」と「コーパス」の構築によって行われる|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

●検索エンジン

形態素解析はさまざまな場所で活用されている技術ですが、その代表的な事例ともいえるのが「検索エンジン」です。GoogleやYahoo!といった検索エンジンでは、検索フォームに入力されたキーワードをそのまま処理するという仕組みではありません。まず、形態素解析によって、入力されたキーワードを最小単位まで分割するのです。
形態素解析によってキーワードを分割すると、検索において必要のない単語を省くけるようになるため、余分なデータ処理を行う必要がなくなります。たとえば「東京のラーメン屋」と入力した場合、まずは形態素解析によって「東京・の・ラーメン屋」と分割されるわけです。

検索において「の」は必要のない助詞なので、「東京 ラーメン屋」と検索が行われることになります。

●スマートニュース

ニュースアプリの「スマートニュース」でも、形態素解析の技術が活用されています。形態素解析が活用されている場所は、スマートニュースの画面上タイトルの文字組みです。文字組みとは、文字と文字の間を調整して、よりユーザーが読みやすくなるように文字を配置する作業のことをいいます。
スマートニュースでは、見出しである「タイトル」の基本形を形態素解析することによって、次の文章の改行位置が決まる仕組みとなっています。つまり、形態素解析を活用した文字組みによって、ユーザーが読みやすい記事を実現しているのです。

●SNS分析

SNSの魅力的な機能でもある「トレンド」は、形態素解析によって抽出されています。ユーザーが投稿した内容を、傾向分析で文字列抽出するだけでは「を」「が」といった必要のないワードまで含まれた状態で抽出されて今います。
しかし、形態素解析を活用すれば、抽出された内容をさらに精査することが可能になるため、固有名詞や特定のワードなどを的確に絞り込めるのです。その絞り込んだワードをランキングで表示させているのが、SNSのトレンド機能ということです。

■日本語を形態素解析できるツールと種類

■自然言語処理に欠かせない「形態素解析」とは。|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

 

■代表的な自然言語処理(形態素解析)ツール

・Yahoo!JAPANテキスト解析 Web API

24時間で5万件までの形態素解析を行うことができるツール(API)です。1リクエストの最大サイズは10KBまでとなっています。その他のテキスト解析機能として、「かな漢字変換」「ルビ振り」「校正支援」「日本語係り受け解析」「キーフレーズ抽出」といったものが備わっているのが特徴です。

(参照:Yahoo!デベロッパーネットワーク テキスト解析:日本語形態素解析)

・gooラボ

HTTPSリクエストでアクセスし、JSONでリクエストパラメータが返される仕組みの形態素解析ツール(API)です。使用条件としてGitHubでのアカウント取得を行う必要があり、クレジット画像の表示も必要です。その他のテキスト解析機能としては「固有表現抽出」「語句類似度算出」「ひらがな化」「商品評判要約」「キーワード抽出」「時刻情報正規化」といったものがあります。

(参照:gooラボ 形態素解析API)

・MeCab

形態素解析エンジンとしてもっとも頻繁に使用されています。そのため情報が豊富であるという点が大きな特徴です。IPAdic、NAIST jdic、UniDicなどさまざまな辞書との連結も可能であり、追加学習も行えます。また、高速で言語も多いため、MeCabから形態素解析を始めるという方も少なくありません。

(参照:MeCab MeCab: Yet Another Part-of-Speech and Morphological Analyzer)

●janome

janomeは、Pythonで実装された形態素解析器です。Python 2.7もしくは3.3以上で動作し、形態素解析ライブラリにはTokenizerが使用されています。デフォルトの辞書として、mecab-ipadic-2.7.0-20070801が使用されているのも特徴です。
速度自体は、MeCabと比べて早くありません。そのため、用途に合わない場合には、MeCabを使用したほうが良いでしょう。

●JUMAN

JUMANは、京大黒橋研によって開発された形態素解析器です。その歴史としてはMeCabよりも古いため、形態素解析器としてはMeCabのほうが多くの機能を搭載しています。
ただ、MeCabにないメリットとして、依存構造などを解析できるKNPが使用できるという点が挙げられます。これは、MeCabにはない大きな特徴のひとつです。

●TinySegmenter

TinySegmenter はJavaScriptのため、ブラウザ上で動作させることができるのが特徴です。わずか25バイトのソースコードで、新聞記事であれば95%の正解率で分かち書きを行えます。
ただし、辞書を使用する仕組みではないため、日常会話のようなくだけた文章を解析する精度は高くありません。

●RakutenMA

RakutenMAは、日本語と中国語に対応した形態素解析ツールです。JavaScriptで動くので、パソコンだけでなくスマホやタブレットでもテキスト解析を行うことができます。
特徴としては、JavaScript製のテキスト解析で唯一、オンライン学習機能を備えている点が挙げられるでしょう。

●kuromoji

kuromojiは、JavaScriptのオープンソース形態素解析エンジンです。日本語のみ対応しています。
基本の機能としては、「単語分割」「品詞タグ付け」「見出し化」「漢字の読み方解析」です。複数の辞書のバックエンドをサポートしている点も特徴といえるでしょう。

●KyTea

KyTeaは、単語(形態素)分割が必要な言語のためのテキスト解析器です。京都テキスト解析ツールキットとも呼ばれています。
単語分割、読み測定、品詞推定といった機能が搭載されており、音声生成のために単語の発音を推定したいときなどに活用できるでしょう。

■形態素解析から自然言語処理までAIを1から学ぶ

近年は、形態素解析から自然言語処理まで、AIを学ぶことができるサービスも多くなってきています。いくつか代表的なものを紹介していきましょう。

●AMATERAS EDU

AMATERAS EDUは、技術者や専門スキル向けではなく、ビジネスに活かすためのAI教育サービスです。AIプロジェクトに携わっているからこそ、本当に必要なもの、知っておきたいことを伝えられます。
ただAIの基礎知識を理解するだけでなく、AIを活用して「データ」を「価値」に転換していくためのAIフレームワークを身につけられるプログラムです。

●DX・データ活用人材育成研修

企業におけるデータ分析プロジェクトを疑似体験し、その過程や手法を学んでいくことができるプログラムです。
DX・データ活用を推進するためのメタスキルを身につけ、付加価値の高い人材育成を目指すことができます。

●iLect by NABLAS

AI総合研究所として活動する東大発ベンチャーNABLASが提供する、法人向けAI人材育成プログラムです。NABLASは、AI人材育成・AIコンサルティング・R&Dの3つの事業で企業のAI活用を総合的に支援しています。
iLectは、知識習得だけでは終わらせず、実践力の高い人材の育成とビジネス課題の解決をゴールにした法人向けAI人材育成プログラムです。

■自然言語処理の精度向上がサービスの向上にもつながる

自然言語は、プログラミング言語とは異なり曖昧性がある言語ですが、機械可読辞書やコーパス、そして形態素解析によって適切に意味を理解することも可能であることがお分かりいただけたのではないでしょうか。
意味解析の精度が高まり、自然言語処理の性能が向上すれば、これらを活用したサービスの品質もさらに向上していくことが予想できます。
音声アシスタントやスマートスピーカーなど、自然言語処理が用いられるケースは多くなりつつありますので、今後はさらに注目を集める存在となっていくかもしれません。
(参照:Cogent Labs 形態素解析に代表される自然言語処理の仕組みやツールまとめ)

(参照:Cogent Labs 形態素解析に代表される自然言語処理の仕組みやツールまとめ)

 

自然言語処理のサービス比較と企業一覧を見る

 

AIサービス
自然言語処理-NLP-

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら