自然言語処理に使われるLSTMとは？RNNとの違いや特徴を紹介

最終更新日:2024/02/08

LSTMとは？

第三次AIブームと呼ばれる昨今、さまざまな企業が積極的にAI(人工知能)を導入し始めており、私たちの生活にも溶け込みつつある状況です。スマートフォンでも気軽にAIを利用できるため、もはや欠かせない存在といっても過言ではないでしょう。

その中でも、チャットボットやスマートスピーカーに用いられている「自然言語処理」は、多くの価値を見出すことから特に注目されています。今回は、その自然言語処理に使われる「LSTM」について詳しくご紹介していきます。RNNとの違いについても解説していきますので、ぜひ参考にしてみてください。

ディープラーニングについて詳しく知りたい方は以下の記事もご覧ください。
ディープラーニングとは？仕組みやできること、実用例をわかりやすく紹介

LSTMとは

LSTMとは、「Long Short Term Memory」を略した言葉であり、ニューラルネットワークに使用される層の一つです。このLSTM自体は、ディープラーニングが流行する前から存在していた手法であり、1997年に原著論文が発表されました。

そんなLSTMは、RNN(リカレントニューラルネットワーク)という、時系列を考慮する層を改良したものであり、もともとRNNが抱えていた勾配消失問題を解消しています。時系列を考慮することができるという特徴を活かし、主に自然言語処理や時系列データの予測といった場所で利用されている技術です。

RNNとは

LSTMと比較されることが多いのが、RNN（Recurrent Neural Network）です。日本語では再帰型ニューラルネットワークと呼ばれています。RNNは、ニューラルネットワークを拡張し、時系列データを扱えるようにしたものです。

時系列データとは、時間が経過するとともに値が変化していくデータのことです。たとえば、実店舗における1日の売上データ、ECサイトにおける1日のアクセス数、工場におけるセンサデータなど、さまざまなデータが時系列データとして挙げられます。なお、RNNについては以下の記事で詳しくご紹介していますので、あわせてご覧ください。

自然言語処理で一躍脚光を浴びたRNNとは？初心者に優しく解説！

LSTMの仕組み

LSTMは、どのような仕組みで成り立っている技術なのでしょうか。ここからは、LSTMの仕組みについて詳しくみていきましょう。

参考：Understanding LSTM Networks

忘却ゲート

忘却ゲートは、長期記憶から情報を忘却するときに必要となる制御を行うためのシグモイド層です。LSTMの最初のステップである「セル状態から捨てる情報の判定」において用いられます。

ht−1ht−1 と xtxt を見て、セル状態 Ct−1Ct−1 の中のそれぞれの数値のために 0 と 11の間の数値を出力します。 1が表すのは「完全に維持する」であり、0が表すのは「完全に取り除く」です。

入力ゲート

次のステップで用いられるのが「入力ゲート」です。入力ゲート層では、セル状態で保存する新たな情報の判定が行われます。入力ゲート層もシグモイド層の一種で、どの値を更新するか判定するのが主な役割です。

そして、 tanh 層において、セル状態に加えることができる新しい候補値である「ベクトル C~t 」を作成します。次のステップでは、状態を更新するために、これら2つを組み合わせます。

出力ゲート

出力するものを判定するために用いられるのが出力ゲートです。この出力は、セル状態に基づいて行われるものであり、フィルタリングされたバージョンとなります。
まず、シグモイド層を実行します。この層は、セル状態のどの部分を出力するか、判定していきます。そしてその後、判定された部分だけを出力する必要があるため、セル状態にtanhtanh を適用させ、それにシグモイド・ゲートの出力を行っていくわけです。

LSTMの特徴

LSTMの大きな特徴として挙げられるのは、「y_{t-1}という古いアウトプットを次の段階でインプットとして使用する」というRNNの構造を維持していながらも、「C_{t-1}という長期記憶を少しずつ変えていくことができる」という点です。

また、これらを3つのゲートで管理している点も大きな特徴といえるでしょう。ここで用いられているゲートは、「Forget Gate」「Input Gate」「Output Gate」の3つです。

「Forget Gate」は、古いC_{t-1}のうちどの部分を忘れるかという部分の役割を担っています。「Input Gate」は、新しいインプットと一つ前のアウトプットを組み込むという役割を担っています。そして「Output Gate」は、更新された長期記憶をもう一度処理し、アウトプットを作るという役割を担っているわけです。

LSTMの活用事例

現在、LSTMはさまざまな分野で活用されています。実際にどのような場所で活用されているのか、その活用事例について詳しくみていきましょう。

文章生成

LSTMは、文章生成の分野でも活用されています。その一例として、架空の名前から架空の人物の歴史概要を作成させたというものがあります。ここで用いられた方法は、wikipediaに掲載されている人物の概要部分を抜き出し、RNNにトレーニングさせるというものです。

トレーニングさせたモデルに対して名前を入力することで、その人物の概要を出力してくれるようになったといいます。文章を生成させるモデルの場合、多層パーセプトロンのようなモデルでは、出力の長さが一定になるため、正確には作れません。

ただし、RNNを使うことで、入力が単語（文字）、出力が次の単語（文字）として学習できるようになります。そのモデルに対して出力された単語を入力させると、文章の生成が可能になるのです。

そして、RNNは入力によって内部の重みを更新し、次の入力に対する準備を行います。これにより、例えば前の入力が「私/の/名前/は」と来たら次にくるものが女性の名前、「僕/の/名前/は」と来たら次にくるものが女性の名前、というようにモデルを作成することが可能になります。

ただし、RNNは情報を長く記憶することが得意ではありません。単語をいくつか入力するだけで、過去の情報は忘れてしまうのです。そのため、LSTMを活用すると、その問題を解消できます。

たとえば、「私の名前は真由美です。最近は～～～ところで…」といった長文を入力していくと、「ところで」をモデルに入力するタイミングで「真由美」という名前は忘れてしまう可能性が高くなるのです。

株価予測

LSTMモデルを構築すれば、1時間ごとの株価を予測することも可能になります。その方法としては、まずデータのインポートを行い、株価データの波形を確認していきます。入力データは、数日分のデータを集めた「窓」と呼ばれる形に加工します。このためには、test,trainのデータをそれぞれ加工しなければなりません。これらの前準備を終えたら、実装していきます。

LSTMでは、予測値（青グラフ）が実測値（オレンジグラフ）を少し遅れる形で後追いするケースがあります。これは、LSTMにおいては頻繁に起こる現象といわれており、タイムラグがあるモデルのため、「Lag Model（ラグモデル）」とも呼ばれることがあるそうです。

「AIの株価予測」サービス・アプリで注目銘柄を分析！