AIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索・資料請求サイト
TEL
MAIL
03-6452-4750

声で操作!AIを活用した音声認識の仕組みとは?

最終更新日:2021/10/05

SiriやGoogle音声アシスタントといった音声アシスタントアプリケーションは、私たちにとって、もはや当たり前の存在となりつつある状況です。実際にこれらの音声アシスタントアプリケーションを利用して、情報を検索している方も多いのではないでしょうか。

そんな音声アシスタントアプリケーションが高い精度で私たちの声を聞き取り、適切な回答を行えているのは、音声認識にAIが活用されているからに他なりません。

今回は、どのような仕組みでAIが音声認識を行なっているか、詳しくご紹介していきます。

■音声認識とは?

■音声認識とは?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

まずは、冒頭でもご紹介した「音声認識」とはどのような仕組みのものなのか、詳しくみていきましょう。

SiriやGoogle音声アシスタントといったアプリケーションを「音声認識アプリ」と思われている方も多いかと思いますが、厳密には「音声アシストアプリ」という表現が適切なものになります。というのも、SiriやGoogle音声アシスタントにおける音声認識は、あくまでもそのアプリケーションの技術の一部に過ぎないからです。

音声認識は「人間の声を理解し、テキストに変換する技術」を指しますので、SiriやGoogle音声アシスタントなどに話しかけたときにテキスト変換されている機能が「音声認識」にあたります。

そんな音声認識ですが、本格的な研究が開始されたのは1971年のアメリカだとされています。軍事関連の研究を行っているアメリカ政府の機関「国防高等研究計画局」が音声認識についての研究に着手したことで、少しずつ技術が発展していきました。

そして、1975年にはITサービスの大手企業であるIBMが民間では世界初となる音声認識技術を開発して注目を集めました。その後、Microsoftが「Windows 95」にスピーチツールを搭載したことでさらに話題を呼び、2011年にはiPhone 4SにSiriが搭載されたことで、私たちにとって非常に身近な存在へとなっていったのです。

(参照:SPJ 音声認識の仕組みと、隠れマルコフモデル(HMM)入門)

 

■主な音声認識技術

■主な音声認識技術
・音響分析

音響分析とは、マイクで入力された音声の特徴量(周波数、音の強弱など)を調べた上で、扱いやすいデータとして抽出、変換していく作業のことです。そもそもAIは、人間と同じように生の録音データから音声を認識することはできません。そのため、AIが認識できるようにデジタル化し、ノイズの除去まで行う必要があるわけです。
そして、音響分析によって抽出されたデータをもとに、AIは音声認識を進めていきます。

 

・音響モデル

音響モデルとは、データ化された特徴量(周波数、音の強弱など)をAIが事前に学習したデータと照らし合わせ、音素(音波の最小単位)を抽出していく作業のことです。一般的に、学習データは数千人、数千時間の人間の声を統計的に処理したものが用いられます。そして、音素を抽出することによって、初めてAIが音声をテキスト化する上で必要な情報が得られるのです。
ちなみに、音素とは「音声を発した際に観測される音波の最小構成要素」であり、日本語であれば母音(アイウエオ)、擬音(ン)、子音(23種類)の3種類で音素が成り立っています。

 

・言語モデル

言語モデルとは、単語群を文章化していくための作業のことです。たとえば、「こんにちは。今日は寒いですね。」という文章は、もともと「こんにちは」「今日は」「寒いですね」といった単語群で成り立っています。
この単語群を文章化する際は、日本語テキストを多く収集して統計処理したデータをもとに、可能性の高い組み合わせ例を参考にしながら意味のある正確な文章として整形していくわけです。この言語モデルの手法として頻繁に用いられているのが「N-garmモデル」です。

 

・発音辞書

音響モデルと言語モデルを繋ぐ役割を担っているのが、発音辞書です。音響モデルによって抽出された音素の並びを組み合わせて、単語として構成していく際における「データベース」の役割を担っています。
この発音辞書を利用した音素の連結によって、初めて単語に相当する単語音響モデルを構築することができるのです。

 

■音声認識とAIを組み合わせるとさらに可能性が広がる

■音声認識とAIを組み合わせるとさらに可能性が広がる|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

そんな中、最近ではディープラーニング(深層学習)を行うAIと音声認識を組み合わせることで、さらに精度を高められるようになりました。また、より多様な場面で活用することもできるようになっています。その一例をいくつか見ていきましょう。

 

・音声だけで命令を出せるようになる

これまで、パソコンを操作して何かしらの命令を出すためには、マウスやキーボードを直接操作しなければなりませんでした。マウスの場合、ドラッグ&ドロップなどの労力がかかりますし、キーボードに関しては入力の労力がかかる上に、人によって入力スピードに差が生まれてしまいます。つまり、これまでは労力がかかる上にスピードを一定に保つこともできなかったということです。
その点、AIを利用した音声認識であれば、文字の入力はもちろんのこと、アプリケーションの起動・終了まで音声ひとつで行えるようになります。
また、プログラミング言語「Python(パイソン)」のカンファレンスなどでは、講演者の発音を正しく理解して、音声認識したAIがプログラミングコードを入力するといった使い方もされています。

 

・より「聞き取り」の精度を高められる

空港や駅のターミナルのような、大声で話す人が周囲にいる環境では、多くの人の声が入り混じる中で正確に声を聞き取り、適切な回答を示すことが難しくなってしまいます。しかし、AIを活用することによって、人間では聞き取るのが難しいような状況下においても正確に音を聞き分けることができるようになるのです。
その一例として、通信事業の大手であるNTTが開発した技術が挙げられます。NTTが開発したAIは、ノイズキャンセリングイヤホンのような仕組みでノイズを減らし、必要な音だけを効率的に聞き取ることができるのです。

 

・誤認識を減らし、信頼性を高められる

データ入力、電話対応といった事務作業は、比較的機械的な作業ではあるものの、時間がかかってしまう傾向にあります。また、人の手による作業ではミスが生まれにくい業務でもあるため、「できる限り効率的にミスなく進めたい」と考える人も多いことでしょう。
AIを活用した音声認識であれば、データ入力を自動化させることができるだけなく、その精度も高くすることができるため、企業としての信頼性向上につなげることができるでしょう。また、人の手による作業が必要なくなるため、人手不足という問題を抱える企業の「業務効率化」にも大きく貢献します。

 

■AIを活用した音声認識の仕組みはさまざまな業務を効率化

このように、AIを活用した音声認識は、より高い精度での音声認識が可能になることがお分かりいただけたでしょう。さらに最近では次のような実用化も進んでいる状況です。

 

・議事録

会議の内容を記録する「議事録」は、より正確かつスピーディーに作成していく必要があります。しかし、担当者の知識やスキルによっては作成スピードに差が生まれてしまうケースも珍しくありません。しかし、最近ではAIを活用した音声認識によって自動で議事録を作成できるツールも増えてきています。そういったツールを有効活用することで、より議事録作成を効率化することができるようになるでしょう。

 

・翻訳機

最近では、AIを活用した音声認識による翻訳機も多くなっています。翻訳機として高い知名度を誇る「ポケトークW」は、Googleなどの検索エンジンに接続することで、ユーザーが発音した内容を調査することができる仕組みです。そのため、適切な意味を理解して会話を返すことができます。さまざまな言語に対応しており、アメリカ英語やイギリス英語、カナダ英語といった細かな言語の違いにも対応できる点は大きな魅力といえるでしょう。
これまで、通訳を介してコミュニケーションが行われていた場でも、今後はこういった翻訳機で完結できるようになるかもしれません。

このように、AIを活用した音声認識には多くのメリットがあり、すでに多くの業務に活用されている状況です。SiriやGoogle音声アシスタントなど、私たちにとって非常に身近な存在になりつつある音声認識も数多く存在します。こういった音声認識の仕組みは、私たちの生活をより豊かにする可能性を秘めているといえるのではないでしょうか。

(参照:iedge 音声認識の仕組みとは?AI活用のメリットと音声認識技術の最新事例【テクノロジー・AI 入門編】)

 

・ボイスボット(対話型AI)

■チャットボットとは?開発に必要な基礎知識

機械学習やディープラーニングを活用した音声認識によって、会話内容の把握だけでなく、対応そのものを自動化してしまうのが、「対話型AI/ボイスボット」です。人手を介さずに、問い合わせ対応を行えるようになるため、業務の自動化を実現できます。

企業によっては、オペレーターの人手不足が深刻化しているケースもあるでしょう。オペレーターが不足したままの状態では、問い合わせ対応のスピードが遅れてしまうため、顧客満足度の低下にもつながりかねません。

しかし、対話型AI/ボイスボットを活用すれば、ユーザーからの電話にも自然な通話のように自動対応できるようになります。AIだけでは対応できない問い合わせのみ、オペレーターに転送する仕組みを構築すれば、「AIでは対応できない問い合わせのみを人間が対応していく」という効率的な業務環境を実現できるのです。

(参照:コールセンター向けの音声認識AIサービスを徹底比較!

 

・音声合成による読み上げ

今すぐ使える!音声合成フリーソフトの特徴を徹底比較|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

最近では入力したテキストを自動で読み上げてくれる「音声合成ソフト」や、リアルタイムで声を変換するボイスチェンジャーなどの活用も広がっており、注目を集めています。音声合成(音声読み上げ)技術に関しては、無料でその技術を体感できるフリーソフトも多く提供されているため、今すぐ活用していくことも可能です。

音声合成ソフトは、もともと目が不自由な人や、小さな文字を読むのが困難な高齢者に向けて開発が進められていました。ホームページやテキストファイルなどの文字を機会が読み上げてくれれば、字を読むことができない人でも理解することができるからです。

ただ、最近では上記の目的だけでなく、さまざまな領域で音声合成ソフトが活用され始めています。現在はコンテンツ作成において利用されるケースが多くなってきていますが、もともとは「目が不自由な人」「文字を読むのが困難な高齢者」を対象に開発が進められたという背景を理解しておくことで、よりユーザー目線を大切にできるのではないでしょうか。

ちなみに、官公庁などのホームページではすでに音声合成ソフトが導入されており、テキストを読み上げてもらえるようになっています。そのため、今後はさまざまなサイトで音声合成ソフトが導入されていく可能性もあるでしょう。

(参照:今すぐ使える!音声合成フリーソフトの特徴を徹底比較

 

■おすすめ音声認識AI

 

・AmiVoice

AmiVoice Communication Suite

(参照:AmiVoice® Communication Suite|製品情報|音声認識の株式会社アドバンスト・メディア)

AmiVoiceは、株式会社アドバンスト・メディアが20年以上研究・開発を続けてきた独自の音声認識エンジンです。現在は、このAmiVoiceを組み込んだコールセンター向けAI音声認識ソリューション「AmiVoice Communication Suite」も提供されており、多くの企業で導入が進んでいます。

そんなAmiVoice Communication Suiteのメリットとしては、全通話のテキスト化(文字起こし)によって後処理時間の大幅な削減を実現できる点が挙げられるでしょう。全通話をテキスト化してくれるため、これまで多くの時間を要していた応対履歴作成業務の大幅な削減が実現できるのです。

また、モニタリング業務の応対品質を高められる「通話品質評価機能」が設けられているのも魅力のひとつといえます。コールセンター業務に悩みを抱える企業にとって、魅力的な機能が詰まったソリューションといえるのではないでしょうか。

 

AmiVoice の詳細を見る

 

・Nuance 音声認識/対話型AI

Nuance 音声認識/対話型AIのソリューション

Nuance Japan が提供するNuance音声認識/対話型AIのソリューションは、音声対話に必要な「音声認識」「意図理解」「対話管理」「音声合成」のすべてを取りそろえたサービスです。クラウド、オンプレミスのどちらにも適用することができます。

また、認識精度の向上を行うためのツールが提供されており、フレーズや単語を登録・管理することも可能です。辞書を内包しており、ユーザーの発話内容を高い精度で認識することができるのも魅力といえるでしょう。

さらに、認識精度の向上するためのチューニングツールが提供されているのも特徴で、フレーズや単語を簡単に登録/管理することができます。

 

Nuance の詳細を見る

 

・COTOHA

(参照:COTOHA Voice Insight | NTTコミュニケーションズ 法人のお客さま)

COTOHAは、NTTコミュニケーションズ株式会社が提供している「コミュニケーションAI」のサービス群です。そのサービスのひとつである「COTOHA Voice Insight」は、NTT研究所で40年以上蓄積された技術を採用している音声認識AIサービスであり、さまざまなコールセンターで導入されています。コールセンターにおいて最適な高精度の音声認識エンジンが搭載されているため、高い音声認識率が実現されているのも特徴です。

また、大きな特徴として、コールセンター向けに厳選した単語でチューニングされていることが挙げられます。商品名やサービス名といった一般辞書にはないワードを登録することも可能で、それにより音声認識率をさらに高めていくことも可能です。

そして、クラウド型のサービスであるためオンプレ型サービスと比べて低コストである点も、大きな魅力のひとつでしょう。低コストでの音声認識AIサービス導入を検討している企業に最適のサービスといえます。

 

・Speech-to-Text (Google)

Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に|AI・人工知能製品・サービス・ソリューション・プロダクト・ツールの比較一覧・導入活用事例・資料請求が無料でできるメディア

(参照:Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に

Speech-to-Textは、Googleが提供するクラウドベースの音声認識サービスです。Googleによると、 データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。

2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオからの文字起こしのほか、長時間の音声ファイルを再生することも可能で、音声の検索や音声コマンドもサポートしています。また、2018年にはピリオド、カンマ、疑問符といった句読点を自動的に挿入するツールのβ版も公開しました。2019年2月時点でのサポート言語の総数は21言語(方言も含む)で 、飛躍的にその性能を高めています。

 

■音声認識AIは2023年度に1000億円超の市場規模へ

このように、AIを活用した音声認識には多くのメリットがあり、すでに多くの業務に活用されている状況です。SiriやGoogle音声アシスタントなど、私たちにとって非常に身近な存在になりつつある音声認識も数多く存在します。

何より、音声認識AIは、2023年度には1000億円超の市場規模へと成長していくことも予想されているのです。こういった点を踏まえると、音声認識の仕組みは私たちの生活をより豊かにする可能性を秘めているといえるのではないでしょうか。

(参照:iedge 音声認識の仕組みとは?AI活用のメリットと音声認識技術の最新事例【テクノロジー・AI 入門編】)

 

音声認識AIのサービス比較と企業一覧を見る

 

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら