自然言語処理で一躍脚光を浴びたRNNとは？初心者に優しく解説！

最終更新日:2024/04/09

近年はさまざまな分野で積極的にAIが活用されるようになりましたが、その中でも「自然言語処理」は、人間の言語を機械で処理するために欠かせない技術であることから、多くの注目を集めています。

日常的なコミュニケーションに用いられる話し言葉や、論文のような書き言葉をAIが正しく理解するためには、自然言語処理が欠かせません。そして、その中でも特に「RNN（回帰型ニューラルネットワーク）」は多くの成果を挙げているアルゴリズムであり、今後の活用にも期待されているのです。

そこで今回は、自然言語処理で一躍脚光を浴びた「RNN」について詳しくご紹介していきますので、ぜひ参考にしてみてください。

ディープラーニングについて詳しく知りたい方は以下の記事もご覧ください。
ディープラーニングとは？仕組みやできること、実用例をわかりやすく紹介

RNNとは

RNNとは、「Recurrent Neural Network（リカレントニューラルネットワーク）」を略した言葉であり、日本では「回帰型ニューラルネットワーク」などとも呼ばれています。そんなRNNは、文章などの連続的な情報を利用できることから、多くの注目を集めているのです。

従来のニューラルネットワークは、文章などの連続的な情報を利用するという考え方ではありませんでした。「インプットデータ（もしくはアウトプットデータ）は互いに独立している」と仮定するのが一般的だったのです。

しかし、このような仮定は、すべてのケースにおいて適切というわけではありません。たとえば、文章の中で次の言葉を予測する必要がある場合、「その前の言葉が何だったのか」を記憶しておかなければ、予測を立てることは難しくなるでしょう。これを可能にするのが、RNNに備わった「以前に計算された情報を覚えるための記憶力」なのです。

RNNのRは、「回帰」や「再帰」をあらわす「Reccurent」という言葉です。この言葉が表すように、RNNは直前の言葉に左右されることなく、一定の要件の下で特定の言葉を覚えながら作業を行うことが可能なのです。

RNNの仕組み

参考：Understanding LSTM Networks

ディープラーニングに用いられるDNN（深層ニューラルネットワーク）という技術では、入力層から入力されたデータを、「中間層 1、中間層 2、中間層3、中間層4・・・」といったように、層の順序にしたがってデータを伝播しています。そのため、中間層 1の演算結果を、再度中間層 1に代入し、再演算していくことはありません。

一方のRNN（回帰型ニューラルネットワーク）の場合、「入力層」「1 層の中間層」「出力層」の 3 層から成り立っています。RNN は、DNN とは異なり、中間層における演算結果を出力層に出力していくとともに、同じ演算結果を再び自分自身（中間層）に入力し、再演算していくわけです。

中間層で行われた演算結果を、再び自分自身（中間層）に代入するという作業を繰り返すことによって、同じ中間層が何度も使用されることになります。そのため、複数の中間層から成り立つニューラルネットワークに見えるわけです。

RNN の中間層での出力を、再度中間層に代入していく場合、現在は「何回目の代入なのか」を明確化するために「時間軸（状態軸）」を使用する必要があります。

たとえば、ある状態「st-1」における中間層での出力結果を、再び中間層に代入した場合は、以前の状態から「+1」単位を進んだ状態になるため、「状態 st」となります。このように、それぞれの状態（s1、 s2・・・stなど）において、同じ RNN が用いられていることから、RNN は状態の数分だけ描くことができるというわけです。

BPTT

参考：Backpropagation Through Time for Recurrent Neural Network

RNNの学習では、通常のニューラルネットと同じように勾配降下によって行われますが、重みによる微分を求めなければなりません。その際、主に用いられる方法としては、BPTT法 (back propagation through time)とRTRL法(real time recurrent learning) の2つが挙げられます。ただ、よりシンプルであることから、BPTT法 (back propagation through time) が多く用いられているのが特徴です。

RNNができること

RNNは、自然言語処理の分野において、さまざまな成果をあげています。では、RNNを活用すると具体的にどのようなことができるのか、詳しくみていきましょう。

言語モデルと文章生成

言語モデルは、直前の言葉を利用することによって、連続した言葉の中における「次の言葉の出現確率」を予測できるというものです。どれくらいの頻度で文章が現れるのかを予測することができることから、主に機械翻訳の領域で多く活用されています。

次の言葉を予測できることメリットとして挙げられるのは、「アウトプットの確率からサンプリングしていくことで「新たな文章を生成するためのGenerativeモデルを得られる」という点です。

そのため、利用する学習用データ次第では、さまざまなものを生成していくことも可能です。言語モデルにおいて、インプットデータは連続的な言葉の列となります。そして、アウトプットは予測された言葉の列となるわけです。

機械翻訳

機械翻訳は、ソース言語（日本語をはじめとする言語）の文章をインプットとする点に関しては、言語モデルと似ています。ただし、言語モデルとの違いとして、「完全なインプットデータを読み込んでからアウトプットデータの処理を開始していく」という点が挙げられるでしょう。

そのため、翻訳された文章における最初の言葉は、完全なインプット文章の情報が必要となるわけです。

音声認識

国内外のさまざまなメーカーが発売しているスマートスピーカーでも、RNNは活用されています。それは、スマートスピーカーの音声認識技術は、RNNによって成り立っているといっても過言ではありません。

Amazon EchoやGoogle Homeなど、現在はさまざまなスマートスピーカーが発売されていますが、その音声認識精度の高さは非常に高く、ストレスを感じることもほとんどありません。

声認識は、入力が可変長の音声で、出力も可変長のテキストとなります。そのため、単なる音の文字化ではなく、文脈をきちんと理解している必要があるのです。スマートスピーカーは、RNNによって文脈をしっかりと理解しているからこそ、高い精度で変換することができているのです。

声で操作！AIを活用した音声認識の仕組みとは？

画像分析

■そもそも画像認識はどのようなサービス？｜<a href= 人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア” width=”auto” height=”auto” />

画像分析においても、RNNは活用されています。たとえば、画像をもとにして「何をしているか」を説明するような場合には、CNNにRNNを組み合わせることで、説明が可能になります。

その一例として、ある女性がおいしそうにケーキを食べている写真をインプットしたとします。この場合は、まずCNNで画像認識を行い、「1人の女性」「ケーキ」「食べている」といったタグを用いることで、RNNは「1人の女性がケーキを食べている」というような説明を行うことが可能になるわけです。

こういった技術は、インターネットにアップロードされた写真を自動で説明付けする機能などで応用され始めています。

画像認識とは？AIを使った仕組みや最新の活用事例を紹介

RNNの応用

RNNは、さまざまな形で応用されています。ここからは、RNNがどのような形で応用されているのか、より詳しくみていきましょう。

CTC

CTCは、「Connectionist Temporal Classification」を略した言葉であり、文字認識や音声認識でよく使われる手法です。主に、LSTMやRNNと組み合わせて使用されます。

文字認識や音声においては、ひとつの文字の横幅、ひとつの音素の時間長さなどが可変です。そのため、デコーダ側で同じ文字が連続した場合に消し込むことによって、この可変性の問題を解決することができます。

また、CTCの出力を言語モデルで補正すれば、より自然な文章に整えることも可能です。言語モデルを使用したctcdecodeとしては、以下のライブラリを使用します。

（参考：Github「ctcdecode」）

Bidirectional RNN

Bi-directional RNNとは、過去の情報とあわせて未来の情報も加味することによって、精度の向上を図るモデルです。一般的なRNNの場合、「過去から未来」のみの情報で学習を行いますが、Bidirectional RNNは「未来から過去」という方向でも同時に学習することができます。

また、過去から未来という一方向のみ学習を行う場合、「どのくらい前から予測すれば誤差が最小化されるか」を決定するための「遅延パラメータ」というものを調節しなければなりません。しかし、Bidirectional RNNであれば、そのようなパラメータに学習が依存することはないため、チューニングの手間を省くことができるのです。

なお、Bidirectional RNNの注意点としては、未来の情報を把握しておかなければ使えないという点が挙げられます。そのため、向いているものとしては「文章の推敲」「機械翻訳」「フレーム間の補完」などが挙げられるでしょう。