IBM Watsonの音声認識「Speech to Text」とは？

最終更新日:2024/04/04

近年、さまざまな業務にAIの技術が用いられています。その中でも音声認識は、AIによって能力が格段にアップする分野といえるでしょう。実際に、世界中の企業でAIを用いた音声認識が活用されている状況にありますが、日本でもIBMの「Watson」が注目を集めています。

中でも「Speech to Text」という「Watson」のAPIは、いちはやく日本語に対応するなど、日本の音声認識におけるパイオニア的存在です。今回は、「Watson」の「Speech to Text」を中心に、音声認識技術がどのように活用されているのかを詳しく見ていきましょう。

IBM Watson（ワトソン）について詳しく知りたい方は以下の記事もご覧ください。
IBM Watson（ワトソン）のAI導入で何ができる？活用事例を紹介

そもそも音声認識とはなんなのか？

音声認識には「音声を文字に変換する技術」「文字を音声に変換する技術」の2種類が存在します。これまでは専用の機器を用いるのが一般的でしたが、最近はスマートフォンのアプリなどでも手軽に音声認識の機能を使えるようになりつつあります。

また、音声認識は活用の用途も広がりつつあり、ビジネスシーンでいえば会議の際の議事録を作成したり、カスタマーセンターで問い合わせを受けた際の会話内容を文字化したりと、さまざまな形で活用されています。

そんな音声認識の技術の中でもIBM「Watson」の「Speech to Text」は、いち早く日本語に対応したAPIとして知られており、特に注目を集めている存在です。

IBMにおける音声認識の歴史

■IBMにおける音声認識の歴史

IBMは、古くから音声認識の研究に力を注いできたことでも知られています。音声認識の研究が始まったのは1960年代であり、1962年には離散的に発せられた「0」から「9」の数字を含む16単語を認識することができる「IBM Shoebox」という世界初の音声認識システムが発表されました。そして1970年代には、連続音声認識も実現されています。また、1990年代にはデスクトップパソコンで音声書き起こしを行える「IBM ViaVoice」というソフトが発売されました。

しかし、こういった研究過程の中で、音声認識の対象となっていたのは「人間が機械に聞いてもらうことを意識しながら発声した音声」にすぎません。普段人間同士が行っているような、決してシステムの存在を意識しているわけではない会話の認識は、よりハードルの高い課題となるわけです。

そのような中で、音声認識の適用先として有効である「電話」での音声認識は、人間同士の会話を音質の低い電話回線の音声を対象として認識するというものであったため、音声認識研究においては極めて大きなチャレンジでした。そして、数多くの研究を支援してきたDARPAファンドによって、電話での会話における音声認識のためのベンチマークデータが作成され、多くの企業や大学などがこのデータを利用して精度改善を進めていたわけです。

IBMは、この研究競争の中でも長期間首位を堅持しており、現在はこのベンチマークデータで世界最高の性能を達成しています。今回のテーマである「Speech to Text」も、こういった経緯から生まれた技術のひとつなのです。

ちなみに、音声認識システムは、「音響モデル」と「言語モデル」という2つの統計モデルに基づいて動きます。音響モデルがモデル化するのは、「ある音声信号がどの音に対応するのか」という点であり、言語モデルがモデル化するのは、「単語の並び方が自然かどうか」という点です。音声認識エンジンは、この2つのモデルを組み合わせることによって、入力された音声信号に対応する単語列の出力を行っていきます。

この音響モデルと言語モデルは言語モデルごとに用意しなければなりませんが、モデル化を行う上で必要となるアルゴリズムや音声認識エンジンに関しては、言語非依存の共通のものを利用できます。2つのモデルは統計的なものであり、その性能は「モデルを学習するためのデータ量」「データの性質が実際に音声認識システムで使用される状況とどの程度一致しているのか」といった点によって大きく変化するのも特徴です。

IBMが提供している「Watson」とは

■IBMが提供している「Watson」とは

今回のテーマである「Speech to Text」は、IBMが提供している「Watson」のAPIであるわけですが、そもそもこの「Watson」とは一体どのようなものなのでしょうか。何となく分かっているつもりでも、詳しくは理解できていないという方も多いのではないでしょうか。

「Speech to Text」の構造や実用例を知るためにも、まずは「Watson」について詳しく理解していくことが大切になりますので、「Watson」の基本的な情報から詳しくみていきましょう。

IBMが提供している「Watson」は、質問応答や意思決定支援を行うシステムです。一般的に「人工知能」という枠組みで取り上げられる機会も多いのですが、厳密には人工知能とは異なる存在であり、IBMはWatsonのことを「Cognitive Computing System（コグニティブ・コンピューティング・システム）」と称しています。

ではこの「Cognitive Computing System」とは一体何なのでしょうか。IBMによれば、「自然言語の理解・学習によって人間の意思決定を支援するもの」という定義になるそうです。そしてこの「Cognitive Computing System」には以下のような3つの特徴が存在します。

1.自ら学習し、進化していく

Watsonは、インターネット上に存在するテキストやWord、PDFといったファイルを参照し、答えを探し出していくことができます。ただ、「現在の状況を認識し、仮説や推論を立てて必要な情報を取り出す作業にフォーカスする」という点においては、ディープ・ラーニングやウィークAI（弱いAI）と同等の技術とされています。

2.NUI（ナチュラルユーザーインターフェイス）をサポートしている

WatsonはNUI（ナチュラルユーザーインターフェイス）をサポートしているという大きな特徴も持っています。そのため、高度な正確性が必要不可欠となる分野においても、自ら取得した情報をもとに進化していくことが可能なのです。

3.専門性が高い分野にも応用できる

Watsonは、社会の中でも特に専門性が求められる「医療」「金融」「人材」といった分野においても応用することができます。それは、Watsonの答えを見つけ出す能力が高いからに他なりません。だからこそ、多くの業界で信頼を獲得し、実際に導入され始めているのです。

なお、大量のデータの中から答えを見つけ出すという点においては、AIとWatsonは似ているように感じられるかもしれません。しかし、Watsonは「人」を主体としており、あくまでも人を支援することが主な目的です。その点で、AIとは大きく異なることがお分かりいただけるのではないでしょうか。

では、これらを踏まえた上で、今回のテーマである「Speech to Text」がどのような構造になっているのか、詳しくみていきましょう。

Speech to Textの仕組み

■Speech to Textの仕組み

IBMの音声技術には、「Speech to Text」という音声を文字に変換させるものと、「Text to Speech」という文字を音声に変換させるものの2つが存在します。ただ、これら2つの基本的な構造は同じであるため、それぞれの構造を別物として理解しようとする必要はありません。ここでは「Speech to Text」にフォーカスして構造についてご紹介していきます。

基本的に人が「あ」という音を耳にした場合、その音に対しては「あ行の最初の文字」という認識が生まれます。しかし、自然界において「あ」は、あくまでも一つの音にしか過ぎません。あ行の最初の文字としての「あ」と、音としての「あ」とでは大きく異なるということです。ちなみに、「あ」行の最初の文字としての「あ」は、音素と呼ばれます。

では、コンピューターが「あ」を音素として認識するためにはどのようにすれば良いのかというと、まずは「あ」という音のデジタル化が必要になります。そしてデジタル化された情報をスペクトル表現にすることで、はじめてコンピューターは「あ」を音素として認識できるようになるのです。ここまでの流れを「音響モデル」と呼びます。

ただし、音響モデルによってコンピューターが50音それぞれを音素として認識できるようになったとしても、「こんにちは」という言葉を言語として認識できるようにはなりません。「こ」「ん」「に」「ち」「は」という、あくまでも5つの音素が連なっただけの意味を持たないものになってしまうわけです。

そのため、コンピューターには「こ」「ん」「に」「ち」「は」をつなげると「こんにちは」という言語になることも覚え込ませなければなりません。この言語化までの流れのことを「言語モデル」と呼びます。

この「音響モデル」と「言語モデル」があるからこそ、コンピューターは「こんにちは」という言語を認識したり、「ありがとう」という言葉を「有利賀党」といった不適切な漢字ではなく「有難う」と表記したりすることもできるのです。

そして何より、IBMでは音響モデルと言語モデルを作成する過程においてAIの基礎技術ともいえる深層学習(ディープラーニング)を使っていることも大きな特徴といえます。深層学習を使っているため、日々学習を重ねていき、音声技術を鍛えていくことができているわけです。

そのため、今後さらに「Speech to Text」の精度が高まっていくことが期待できます。それが、近年多くの企業が「Speech to Text」を導入し始めている理由の一つなのかもしれません。

Speech to Textの活用事例

Speech to Textの実用例。カスタマーセンターで特に重宝｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

IBMの基礎研究所では、30年以上も日本語の音声認識を研究してきており、現在では多くの企業が「Speech to Text」を業務に活用しています。ここからは、多くの企業がどのように「Speech to Text」を利用しているのか、その活用事例をみていきましょう。

リアルタイム文字起こし

Speech to Textを活用すれば、リアルタイムでの音声認識とテキスト化を実現できます。そのため、聞き漏らしが許されない場面でも、しっかりと記録として残すことができるのです。重要な会話が繰り返される会議などにおいて、リアルタイム文字起こしを活用することで、より正確な情報を記録として残せるようになるでしょう。

また、Speech to Textでは、テキスト化された内容をリアルタイムで翻訳するなどの使い方も可能です。企業によっては、さまざまな言語が飛び交う会議を行うケースもあるでしょう。そのような場合でも、リアルタイム文字起こしによってテキスト化し、同時に翻訳まで行うことで、よりスムーズな会議進行を実現できるわけです。

使い方次第では、英語で行われているオンライン会議において、画面上に日本語の字幕がリアルタイムで表示されるようにすることもできます。さらに、さまざまな言語の音声ファイルをストリーミングでテキスト化することも可能です。

このように、Speech to Textのリアルタイム文字起こしは、今後さまざまな場面で価値を発揮していくでしょう。

コールセンター、議事録作成

IBM「Watson」には、音声系のAPIが2つ存在します。ひとつは音声からテキスト書き起こしを行う「Speech to Text」、もうひとつはテキストから自然な声を合成する「Text to Speech」です。これら2つの音声技術はすでに多くの場所で実用化が進んでいる状況ですが、とくに「Speech to Text」はカスタマーセンターを持つ企業への導入が進んでいます。

たとえば、カスタマーセンターに質問の電話が寄せられた際、オペレーターが顧客と話している内容を「Speech to Text」に聞かせておきます。これにより、「Speech to Text」は会話の内容をテキスト化するため、オペレーターが目でも会話内容を確認できるようになるわけです。

さらに顧客が自社製品などの固有名詞を口にした場合には、その製品の説明書やFAQなどのガイドをオペレーターの画面に示すことなどもできます。まさに、オペレーターの負担を一気に軽減させられるシステムといえるでしょう。

他にも、会議における発言のテキスト化や、議事録の作成といった場面でも重宝されています。また、ビジネスの場以外でも音声認識の活用は広まりつつあり、最近では家電などにも導入されている状況です。実際に「Speech to Text」では、スマートフォンのアプリ、IoT家電などの音声による操作を実現しています。

音声操作

近年は、音声で操作することができる機器も多くなってきました。その代表例として挙げられるのが、家電です。実際に、音声で操作ができる家電をお持ちの方も多いのではないでしょうか。

最近では、テレビやエアコンといった家電のリモコンを1台に集約することができるスマートリモコンに、AlexaやGoogle Homeといったスマートスマートスピーカーを連携させて利用するケースも一般的になりつつあります。これにより、さまざまな家電の音声操作が可能になりつつあるわけです。

また、スマートフォンのアプリで操作できる家電も多くなってきています。そのため、わざわざ家電を操作するために立ち上がる必要がありません。音声操作が可能になることで、洗濯や料理、食器洗いといった家事の最中に両手が塞がっていても、より手軽に家電を操作することが可能なのです。

音声入力

Speech to Textは、さまざまな製品の音声入力にも活用されています。代表的な例としては、メッセージアプリでの音声入力、カーナビでの音声入力などが挙げられるでしょう。私たちの話す言語を正しく理解し、文字として表示させることができます。

特にカーナビの場合、運転中はハンドルから手を離すことができないため、カーナビには触れられません。しかし、音声入力機能が搭載されていれば、運転中でも「室内の温度を下げて」「音楽を流して」といったリクエストを行うことができるわけです。こういった音声入力機能は、今後もさまざまなシーンで重宝されるでしょう。

（参照：IBM Watsonオフィシャルサイト　Speech to Text (音声認識)ディープ・ラーニングを活用して、音声からテキストを書き起こす）

IBM Watsonの「Speech to Text」は無料で試すこともできる

■Watsonの「Speech to Text」は無料で試すこともできる｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

（参照：IBM Watsonオフィシャルサイト　IBM Watson Speech to Text （音声認識）- Japan）

IBMでは、「ライト・アカウント」という期間無制限で多数のAPIとサービスが利用できるアカウントも存在するため、無料で「Speech to Text」を試すことができます。「Speech to Text」の音声認識機能はどの程度の精度なのか、知りたいという方も多いかと思いますので、そのような方はぜひライト・アカウントで試してみてはいかがでしょうか。

では、そのライト・アカウントで「Speech to Text」を使用するための手順についてみていきましょう。

1.IBM Cloudライト・アカウントに登録

「Speech to Text」はIBM Cloudで提供しているサービスの一つですので、まずはIBM Cloudライト・アカウントへの登録をしていきましょう。ちなみに、ライト・アカウントへの登録にはクレジットカード登録が不要なので、誰でも気軽に始めることができます。
登録は、IBM Cloudライト・アカウントのページでしますが、その際に必要な情報は「Eメールアドレス」「名前（姓・名）」「電話番号」のみです。

2. 「Speech to Text」サービスを作成

ライト・アカウントへの登録が完了したら、ログインをして画面上部にある「カタログ」をクリックします。クリックすると、次の画面で左側にカテゴリが表示されますので、「AI」をクリックしましょう。そして、「Speech to Text」をクリックします。
続いて、「デプロイする地域/ロケーションの選択」という項目がありますので、こちらを「東京」に設定しましょう。
そして最後に「作成」をクリックすれば完了です。

3.音声ファイルを準備する

当然、「Speech to Text」を利用するためには音声認識させるための「音声ファイル」が必要になりますので準備しましょう。ただし「Speech to Text」では以下の音声フォーマットにしか対応していませんので、ご注意ください。

対応している音声フォーマット：FLAC、MP3、PCM、WAV、Ogg、WebM、Mu-law/u-law

また、サポート言語は以下の言語のみとなっています。

言語：日本語、中国語（標準）、アメリカ英語、イギリス英語、ブラジル・ポルトガル語、フランス語、アラビア語、スペイン語

4.API鍵を確認する

「Speech to Text」のAPIを使用するためにはAPI鍵が必要となりますので、ここで確認しておきましょう。
左側のメニューにある「管理」をクリックすると資格情報が表示されますので、「API鍵」という欄に表示されている内容をメモします。

5.音声ファイルを文字に変換する

そして最後に、音声ファイルをSpeech to Textに送信し、音声認識を行います。ここでAPI鍵が必要になりますので、事前にしっかりとメモしておくようにしましょう。

（参照：あぱーブログ　Watson Speech to Text の使い方日本語音声をテキストに変換してみよう）

（参照：IBM Watsonオフィシャルサイト　Speech to Text Demo）

（参照：IBM オフィシャルサイト　IBM Cloud – 日本）

生産性向上の鍵を握るIBM Watsonの「Speech to Text」

このように、IBMの提供する「Speech to Text」を有効活用していくことで、これまでは手作業で文字起こしをする必要があった議事録の作成や、並行作業の難しかったカスタマーセンターにおける音声のテキスト化など、さまざまな業務において効率良くテキスト化できるようになります。

少子高齢化などにより、働き手不足が深刻化している現代において、人員を確保して業務スピードを向上させることは現実的ではありません。むしろ、一つひとつの業務の効率を追求し、一人ひとりの負担を増加させずに業務の品質・スピードを向上させていくことが大切になるのです。

その業務効率化を実現させるためにも、「Speech to Text」をはじめとするAIを活用した音声認識機能は重宝されるのではないでしょうか。特に、多くの社員を抱える大企業になれば、社内での問い合わせも多くなることが予想されます。そういった社内問い合わせへの対応スピードに遅れが生じてしまえば、企業の業績に大きな影響を与えてしまう可能性もあるのです。

そのため、社内問い合わせを減らす目的で「FAQ」などを設ける企業もありますが、問い合わせをする方としては、「直接担当者に聞いてしまったほうが早いだろう」と考える人も少なくありません。このようなケースにもしっかりと対応するためには、音声認識機能によってカスタマーセンターの負担を軽減することがもっとも効率的といえるのではないでしょうか。
このような状況などを踏まえると、今後はさらに「Speech to Text」のような音声認識機能への需要が高まっていきそうです。

IBM Watsonを搭載したサービスの比較と企業一覧を見る

AIソリューションについて詳しく知りたい方は以下の記事もご覧ください。
AIソリューションの種類と事例を一覧に比較・紹介！

AIについて詳しく知りたい方は以下の記事もご覧ください。
AI・人工知能とは？定義・歴史・種類・仕組みから事例まで徹底解説