DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
お急ぎの方は、まずお電話で 03-6452-4750
MAIL
お急ぎの方は、まずお電話で 03-6452-4750 10:00〜18:00 年末年始除く

Word2vecとは?前後の言葉から単語の意味を表す手法

最終更新日:2022/06/22

近年はさまざまな分野において、AIを搭載した製品(サービス)が積極的に活用され始めています。その中でも、コミュニケーションに必要不可欠な言語の分野では、自然言語処理をはじめとする技術によって利便性が向上しており、大きな注目を集めているのです。

そこで今回は、自然言語処理の技術向上において重要な役割を果たしている「Word2vec」について詳しくご紹介していきますので、是非参考にしてみてください。

自然言語処理-NLP-のサービス比較と企業一覧

■Word2vecとは

別名:ベクトル空間モデル、単語埋め込みモデル

Word2vecとは、文章に含まれる単語を「数値ベクトル」に変換し、その意味を把握していくという自然言語処理の手法です。比較的簡単に学習を行えるPythonを用いて実装できるので、初心者でも利用しやすい自然言語処理の手法とされています。

そんなWord2vecは、従来の自然言語処理のよりも精度が高いのが特徴です。特に文章の意味を把握するという点においては、これまでの自然言語処理よりも遥かに高い精度を実現できるようになりました。

ちなみにWord2vecは、「意味ベクトル」という単語のベクトル表現を可能にする手法であることから、Word2vec(word to vector)という名前が付けられています。「同じ文脈において現れる単語は、似た意味を持つ」という分布仮説が、根本の設計思想としてあるのです。

●自然言語とは

自然言語とは、私たち人間が日常的に話したり書いたりしている日本語や英語、フランス語といった「自然な言語」のことを指します。この自然言語の対照的な存在が、プログラミング言語です。

プログラミング言語には一切の曖昧性がありませんが、自然言語には曖昧性があるため、その言葉(文字)の意味を正しく理解することは決して簡単なことではありませんでした。
例えば、「黒い目の大きい金魚」という言葉があったとします。この場合、「“目が黒い”“大きな金魚”」というニュアンスにもなりますし、「“黒い色”の“目が大きな金魚”」というニュアンスにもなるわけです。そのため、本来伝えたい意味とは異なって伝わってしまうというケースも少なくありません。

その点、プログラミング言語の場合は、「5+3+1=9」といった計算式のように、答えがひとつしか存在しません。コンピューターの制御を行うためのプログラムを記述する言語なので、すべてのコンピューターが同じ解釈をすることができるわけです。だからこそ、プログラミングにおいて「コンピューターごとに異なる動きをしてしまう」という事態が引き起こることはありません。

●Word2vecの歴史

Word2vecは、Googleの研究者であるトマス・ミコロフ氏が率いる研究チームによって2013年に作成されました。同年に論文を公開し特許も取得しています。

■Word2vecの仕組み

(出典:”Efficient Estimation of Word Representations in Vector Space” Tomas Mikolov [2013])

Word2vecには、2層のニューラルネットワークのみで構成されているという大きな特徴があります。構造がシンプルであるため、大規模なデータによる分散表現学習を現実的な計算量によって行えるようになったわけです。その結果、分散表現での自然言語処理を飛躍的に進めることができました。

そんなWord2vecには、スキップグラム法(skip-gram法)、CBOWという2つのモデルが内包されています。これら2つの仕組みについて、詳しく見ていきましょう。

●スキップグラム法(skip-gram法)

スキップグラム法では、教師あり学習が用いられます。入力として中心語を付与し、その周辺語の予測を出力していくという仕組みです。この学習によって、ネットワーク内の単語の周りにどんな単語が現れる可能性があるか、学ばせていきます。

●CBOW

中心語から周辺語を予測するという手法のスキップグラム法に対して、CBOWは周辺語から中心語を予測していきます。

CBOWも、スキップグラムと同様に教師あり学習が用いられます。CBOWでは入力が周辺語、出力が中心語となります。

■Word2vecができること

Word2vecを用いるとどのようなことができるのでしょうか。ここからは、Word2vecができることについて、詳しく見ていきましょう。

●演算処理

Word2vecは、文章中の単語を「0-1」だけではない実数値ベクトルによって把握しています。そのため、単語同士を足したり引いたりという演算処理を行うことも可能なのです。有名な例としては、「King – Masculinity + Femininity = Queen(王様 – 男 + 女 = 女王)」が挙げられるでしょう。

要するに、王様から「男」という要素を引き、そこに「女」という要素を足すことによって「女王」になるということです。

●感情分析

Word2vecでは、文章から筆者の感情を読み取っていく「感情分析」を行うこともできます。

たとえば、アメリカの心理学者であるポール・エクマンが提唱した「怒り、嫌悪、恐れ、幸福、悲しみ、驚き」という6つの基本感情と、文章内の単語間の意味ベクトルの大きさを比較することによって、その文章が「6つの基本感情」に対してどの程度の近さにあるのか推測していくというものです。

●文章要約

Word2vecでは、文章の要約を行うことも可能です。その一例としては、株式会社リクルートテクノロジーズが開発・提供しているAIのAPI群「A3RT」シリーズが挙げられるでしょう。

「A3RT」シリーズのひとつに、文章要約を行うことを目的とした「Text Summarization API」というAPIが存在します。この「Text Summarization API」の機能は、文章の意味読み取り、分類、特徴的な文章の抽出などです。ベースの技術としてDoc2Vecが活用されています。Doc2Vecとは、文章間の類似度・ベクトル計算を行うことができる手法のことです。Paragraph2Vecと呼ばれることもあります。

なお、株式会社リクルートテクノロジーズが提供するA3RTのAPIは無料で利用可能です。

●文章生成

Word2vecは、RNN(再帰型ニューラルネットワーク)との組み合わせによって、文章の自動生成も実現可能です。

たとえば、夏目漱石の作品を学習させることによって、「夏目漱石の文章に近い雰囲気を持った文章」を新たに作り出すことができます。RNNを活用することで、夏目漱石の「単語の並べ方」や「多く用いられる表現」といった癖までを再現できるようになるのです。

■Word2vecの活用事例

では、Word2vecは実際にどのような場所で活用されているのでしょうか。ここからは、Word2vecの活用事例について詳しく見ていきましょう。

●対話型AI

チャットボットボイスボットといった質疑応答を行うことができる「対話型AI」では、Word2vecが用いられています。その代表例として挙げられるのは、女子高生AIロボットとして大きな注目を集めた「りんな」です。

りんなは2015年7月にコミュニケーションアプリ「LINE」上に登場しました。さらに同年12月には「Twitter」でもサービスを開始。OSの「Windows」やExcel、PowerPointなどのビジネス向けソフトウェアで構成される「Office」シリーズなど、IT企業の中でもどちらかというと「お堅い」イメージのマイクロソフトが手掛けたという意外性と、そのクオリティの高さで一躍注目を集め、LINEでは登場から1ヶ月足らずで約130万ユーザーを記録しました。LINEのりんなではチャット上で話しかけると、女子高生という設定に沿った会話が楽しめます。

カスタマーサポートで活躍するまじめで丁寧なチャットボットとは異なり、「まじ?」「うける~」と、りんなは口調まで女子高生そのものです。ただ、単なる会話だけではすぐに飽きられてしまうため、「しりとり」などの簡単なゲームをしたり、日記を書いてくれたりといった機能が搭載されています。

●機械翻訳

Word2vecができることの一つに、「機械翻訳」も挙げられます。Word2vecの開発者であるトマス・ミコロフ氏は、Word2vecの技術を機械翻訳に応用できるのではないかと感じたことから、機械翻訳への応用にも着手していました。

その結果、ディープラーニングと組み合わせることによって、Word2vecの周囲の単語から特定の単語を予測するシステムにおける「機械翻訳の精度」を大幅に高めることに成功したのです。

ちなみに、Googleが開発した「TensorFlow」というディープラーニング・フレームワークの公式チュートリアルでは、TensorfFlowとWord2vecを組み合わせることでスペイン語から英語に翻訳するモデルの構築を体験することができます。

●口コミやレビューの分析

Word2vecが持つ「感情分析」の技術を活用すれば、クチコミ・レビューの分析を行うことも可能です。口コミ・レビューの感情を把握することができるようになるため、大量の口コミ・レビューを読み込まなくても「大まかな感情の傾向」を把握できるようになることは大きなメリットといえるでしょう。

近年は、さまざまな分野において口コミ・レビューの重要度が高まってきているため、今後は商品改善、新商品開発、流行予測などにも活用される可能性があります。

●レコメンドシステム

一般的なレコメンドシステムでは「協調フィルタリング」というアルゴリズムが活用されています。この強調フィルタリングとは、「商品Aに興味を示す人は商品Bにも興味を示す傾向があるため、商品Aに興味を示したユーザーには商品Bをおすすめする」といった仕組みのことです。

ただ、インターネット空間では膨大な数のユーザーと商品があるため、この強調フィルタリングを実現するためには大量の処理を行わなくてはなりません。そこで、商品IDやユーザーIDのデータにWord2vecを活用することによって、商品IDとの「ベクトルの大きさ=推奨度合い」を表すことができるようになります。

つまり、本来であれば膨大な処理が必要なレコメンドシステムを簡略化できるようになるということです。

■Word2vecを応用したツール

現在は、Word2vecを応用したツールも多く存在します。いくつか代表的なツールをご紹介していきますので、ぜひ参考にしてみてください。

●fastText

fastText は、Word2Vecの考案者であるトマス・ミコロフ氏が生み出したツールです。Googleから「Facebook AI Research」というFacebookの人工知能研究所へと移籍し、Word2Vecを発展させる形で生み出しました。

特徴としては、圧倒的な単語学習スピードが挙げられるでしょう。Facebookは、標準的なCPUを用いた場合でも「10分以内で10億語」を学習することができます。また、5分以内で50万もの文を「30万のカテゴリー」に分類できることも公式発表で述べているのです。

●ELMo

ELMoは、単語ベクトルを獲得する手法です。Word2Vecとは異なり、文脈を考慮した単語ベクトルを獲得できるという特徴を持っています。

例えば「日」という単語の場合、文脈によっては「太陽」を表しますが、場合によっては日付を表すケースもあります。Word2Vecはそこを一緒くたに「日」と学習させていましたが、ELMoであれば文脈を読み取って「異なる単語」として学習することが可能です。

●Doc2Vec

Doc2Vecは、Googleの研究者であるクオーク・リーが2014年に考案した手法です。文章間の類似度やベクトル計算を可能にするものであり、Paragraph2Vecと呼ばれることもあります。Word2Vecは各単語をベクトルとして処理しますが、Doc2Vecの場合、単語の集合である文章・文書単位でベクトルを割り当てていくのが大きな特徴です。

■Word2vecの学習方法

AI人材育成サービスカオスマップを公開

Word2vecを学習する方法は数多く存在しますが、より効率的にWord2vecを学んでいきたい場合には、AI人材育成・教育サービスを活用していくのも一つの手段といえるでしょう。

たとえばマインドテック株式会社が提供している「AIエンジニア講座」というサービスでは、AIを自らのプロジェクトで活用・遂行する知識・技術を身に着けることができます。厚生労働省の「教育訓練給付制度」の対象であり、受講料の最大70%の補助を受けられる点も、AI導入やAI人材育成を加速していきたい企業にとって嬉しいポイントといえるでしょう。

他にもさまざまな特徴をサービスが存在しますので、Word2vecの学習について興味を持ちの方は、ぜひこちらも参考にしてみてはいかがでしょうか。

AIエンジニアリング入門講座

■Word2vecがもたらす自然言語処理の未来

今回は、自然言語処理において重要な役割を担うWord2vecについてご紹介しました。文章生成や感情分析など、Word2vecではさまざまなことを実現できることがお分かりいただけたのではないでしょうか。

対話型AIや機械翻訳、口コミ・レビュー分析など、さまざまな製品(サービス)に活用されているWord2vecは、私たち人間がAIとスムーズにコミュニケーションを図る上で欠かせない技術のひとつなのです。

ちなみに、以下の記事では自然言語処理の分野において大きな注目を集めたBERT(Bidirectional Encoder Representations from Transformers)について詳しくご紹介しています。ぜひこちらも併せてご覧ください。

Googleが誇る「BERT」とは?

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Twitterもフォローください
@AIsmiley_inc

AIサービス
自然言語処理-NLP-

今注目のカテゴリー

チャットボット

画像認識・画像解析

需要予測

OCR・文字認識

チャットボット

画像認識・画像解析

需要予測

OCR・文字認識

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら