Googleドキュメントの音声入力で時間を節約！最新音声認識技術の仕組みも紹介

最終更新日:2024/04/09

近年は、さまざまな業界でAI（人工知能）が積極的に導入され始めています。AIにも多くの種類が存在し、用途も数多く存在するわけですが、その中でも「音声認識技術」に大きな期待が寄せられているのをご存知でしょうか。

音声認識技術を活用することで、会話をリアルタイムでテキスト化したり、会話内容を議事録として作成できるようになったりと、業務効率化に繋げていくことが可能です。

今回は、そんな音声認識技術を活用したサービスとして注目を集めている「Googleドキュメント」の使い方や仕組みなどをご紹介していきますので、ぜひ参考にしてみてください。

音声認識について詳しく知りたい方は以下の記事もご覧ください。
音声認識とは？AIを使った仕組みや特徴をわかりやすく解説！無料製品や事例も紹介！

Googleドキュメントの音声入力の使い方

Googleドキュメントは、Googleアカウントを持っていれば誰でも利用することができるオンライン文書ソフトです。機能のひとつとして「音声入力」が搭載されているため、議事録を作成したり、テープ起こしを行ったりするときにも活用できます。

Googleドキュメントの音声入力を使用するときは、まずGoogleドキュメントから「ツール」を選択し、「音声入力」を選択します。マイク仕様の許可を求めるダイアログが表示されるので、「許可」をクリックしましょう。

これで、パソコンのマイクから入力された音声が、テキストに変換されるようになります。ただし、句読点や改行などは反映されないため、テキスト化された後に自分で編集して整えましょう。テキスト化の作業をすべて自動化できるわけではありませんが、音声を繰り返し聴きながら文字起こしする必要がなくなるという点は、極めて大きなメリットといえるのではないでしょうか。

音声を認識しない時の対処方法

場合によっては、Googleドキュメントを使用しても音声が認識されないケースがあるかもしれません。そのようなときは、マイクの設定を確認してみましょう。Google Chromeの「環境設定」を開くと、左側に「プライバシーとセキュリティ」という欄があるので、そこから「サイトの設定」をクリックします。ここで「カメラ」の項目をクリックすると、Googleドキュメントでマイクの使用が許可されているかどうかを確認できますのでチェックしましょう。

「権限」という欄にある「マイク」をクリックすると、サイトごとのマイクの使用許可を設定することができます。Googleドキュメントのマイク使用が許可されていないと音声入力が行えませんので、許可されていない場合は許可しましょう。

また、パソコンの内蔵マイクでは音声をうまく拾えないケースがあります。そのような場合は外部マイク接続すると、音声が広いやすくなるでしょう。会議で使用する場合には、広い範囲の音を拾うことができるマイクがおすすめです。

音声入力の仕組み

そもそも言葉というものは、調節器官を用いて発せられるものであり、人間の目には見えない音波として耳に届きます。音声入力に用いられる音声認識技術は、その音波を読み取った上で音の最小構成単位の「音素」を特定し、テキストに変換していくという仕組みです。ちなみに「音素」は、日本語の場合だと以下のようなものが該当します。

・あいうえお（母音）
・ん（撥音）
・23種類の子音

たとえば、「おはよう」という言葉の場合、音素として抽出すると「o-h-a-y-o」となり、アルファベット一つひとつが音素となるわけです。この音素をもとにしてテキスト化を行っていくのが、音声認識の仕組みとなります。

ちなみに、テキスト化までのプロセスは以下の通りです。

1.マイクなどの音声入力装置で人の声を録音
2.ノイズや雑音といった不要な音声を取り除く
3.音波から音素を特定する
4.音素の並びを特定した上で単語に変換していく
5.単語の並びから文章を作成し、テキスト化する

このようなプロセスからもお分かりいただけるように、ただ音素を抽出しただけではテキスト化を行うことはできません。音素を特定し、意味のある単語として認識させることが必要になるのです。

Googleにおける音声認識の歴史

1998年に設立されたGoogleが音声認識関連のサービスに着手したのは、2007年でした。「GOOG-411」という、音声認識技術を利用した独自の無料電話番号案内サービスを開始し、2010年11月でサービスの提供が終了しています。というのも、このサービスは自社の音声認識技術の精度を高めるために行われたプロジェクトだったからです。そのため、このサービスを介して取得したさまざまな種類の音声データを、音声認識精度の向上に活用していったといわれています。

また、Googleは2008年に音声検索機能（Voice Search）をモバイル用アプリに導入したことでも知られています。日本語版の「Google音声検索」は、2009年にサービスの提供開始が発表されており、現在でAndroidやiPhoneといったスマートフォンでこの機能が提供されている状況です。もちろん、このサービスはスマートフォンだけでなくパソコンでも提供されています。パソコンのChromeブラウザなどにおいても、その技術は活用されており、実際に議事録作成や文字起こしといった業務で役立てられているわけです。

自然言語処理技術「BERT」と音声認識

BERT（Bidirectional Encoder Representations from Transformers）とは、日本語では「Transformerによる双方向のエンコード表現」と訳されるものであり、Googleが2018年10月に発表した自然言語処理モデルです。GoogleのJacob Devlinが論文で発表したことで注目を集めました。

翻訳や文書の分類、質問応答といった自然言語処理によって行われる仕事の分野を「（自然言語処理）タスク」と呼びます。そして、GoogleのBERTは、さまざまな「（自然言語処理）タスク」において、当時の最高スコアを記録したことで、大きなニュースとなったのです。

そんなBERTの特徴としては、「文脈を読めるようになったこと」が挙げられるでしょう。文脈を読むことができるのは、BERTに「Transformer」というアーキテクチャ（構造）が組み込まれているからです。この「Transformer」によって、文章を文頭と文末の双方から学習することが可能になり、「文脈を読むこと」が実現できるようになったわけです。

Googleが誇る「BERT」とは？次世代の自然言語処理の特徴を解説

Googleの音声認識API「Speech-to-Text API」

最近では、SiriやGoogle音声アシスタントといった音声アシスタントアプリケーションも多くの人に利用されるようになりました。実際にこれらの音声アシスタントアプリケーションを利用して、情報を検索している方も多いでしょう。そんな音声アシスタントアプリケーションが高い精度で私たちの声を聞き取り、適切な回答を行えているのは、音声認識にAIが活用されているからに他なりません。

Googleが提供している音声認識APIのSpeech-to-Textも、まさにAIを活用したクラウドベースのサービスのひとつです。Googleによると、データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。

2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオからの文字起こしのほか、長時間の音声ファイルを再生することも可能で、音声の検索や音声コマンドもサポートしています。また、2018年にはピリオド、カンマ、疑問符といった句読点を自動的に挿入するツールのβ版も公開しました。2019年2月時点でのサポート言語の総数は21言語（方言も含む）で、飛躍的にその性能を高めています。

サポート言語が21言語、句読点にも対応

Googleによると、データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。

Speech-to-Text APIを使うメリット

リアルタイムに通話内容をテキスト化し、業務効率化を図れる

Speech-to-Textをビジネスの現場で活用する取り組みも多くなってきています。それは、Speech-to-Textを業務に活用することで得られるメリットが大きいからに他なりません。安価で機動力のあるクラウド型のPBXやコールセンターなどを開発するClocoは2018年11月、クラウド型コールセンターシステム「Cloco（クロコ）」にGoogle Cloud Speech-to-Text を利用した音声テキスト化（文字起こし）機能を搭載。これまで、音声を聞きながら手入力する必要があったコールセンターの通話記録をボタン一つで自動変換できるシステムを発表しました。

同システムには「音声テキスト化語彙機能（共通語彙機能）」や一時的にその音声のみに語彙を反映させる「追加語彙機能」といった機能も備わっており、専門用語や特定の言葉を登録すれば、さらに認識精度が向上します。

これまで、議事録の作成業務はすべて手作業で行うのが一般的でした。そのため、議事録担当者が会議中に手書きで議事録を取ったり、パソコンで議事録を取ったりする必要があったわけです。

また、すべての内容を一度で完璧に聞き取れるとは限らないため、場合によってはレコーダーを聞き直して加筆しなければならないケースもあります。そのような作業を経た上で、体裁を整えて議事録として社内に共有していくので、どうしても社内への共有までに時間を要してしまうことが多かったのです。

このような方法では、一日に多くの会議が設けられている日には対応が追いつかなくなってしまうことも少なくありません。その点、議事録作成に音声認識機能を活用すれば、議事録の作成にかかる時間を大幅に削減することが可能になります。つまり、議事録作成担当者の負担を軽減させられるだけでなく、社内全体の業務スピードも向上させられるということです。生産性の向上につながるという点でも、議事録作成の効率化には大きなメリットがあるといえるでしょう。

留守番電話の音声テキスト化で業務効率化を促進

また、通話内容だけでなく、留守番電話の音声テキスト化も可能です。コールセンターは労働集約型産業のひとつで、昨今の労働力人口の低下に伴い、人員不足が懸念されている業界です。既存のスタッフのリテンション（引き留め）や新規スタッフの強化に向けて業務の効率化が叫ばれており、こうした自動化技術が必要とされています。

たとえば、担当者が別の業務にリソースを取られている間、その他の業務には手を回すことができなくなってしまいます。とはいえ、電話対応を後回しにしてしまえば、顧客満足度の低下を招いてしまう恐れもあり、結果的に企業としての業績悪化につながってしまいかねません。特に近年は人手不足が深刻化していますので、いかに業務効率を高めるかという点は重要なポイントといえるわけです。

そのような点を踏まえると、音声認識機能を活用して音声テキスト化を自動化できれば、より効率的に業務を進行できるようになります。そして、担当者が業務に集中し、電話対応の質を高められるというメリットも生まれるわけです。それは、事業やプロジェクトを成功に導く上でも大きな魅力といえるのではないでしょうか。

音声認識とAIを組み合わせることで生まれる可能性

最近では、ディープラーニング(深層学習)を行うAIと音声認識を組み合わせることで、さらに精度を高められるようになりました。また、より多様な場面で活用することもできるようになっています。その例をいくつか見ていきましょう。

音声だけで命令を出せるようになる

これまで、パソコンを操作して何かしらの命令を出すためには、マウスやキーボードを直接操作しなければなりませんでした。マウスの場合、ドラッグ＆ドロップなどの労力がかかりますし、キーボードに関しては入力の労力がかかる上に、人によって入力スピードに差が生まれてしまいます。つまり、これまでは労力がかかる上にスピードを一定に保つこともできなかったということです。
その点、AIを利用した音声認識であれば、文字の入力はもちろんのこと、アプリケーションの起動・終了まで音声ひとつで行えるようになります。
また、プログラミング言語「Python（パイソン）」のカンファレンスなどでは、講演者の発音を正しく理解して、音声認識したAIがプログラミングコードを入力するといった使い方もされています。

より「聞き取り」の精度を高められる

空港や駅のターミナルのような、大声で話す人が周囲にいる環境では、多くの人の声が入り混じる中で正確に声を聞き取り、適切な回答を示すことが難しくなってしまいます。しかし、AIを活用することによって、人間では聞き取るのが難しいような状況下においても正確に音を聞き分けることができるようになるのです。
その一例として、通信事業の大手であるNTTが開発した技術が挙げられます。NTTが開発したAIは、ノイズキャンセリングイヤホンのような仕組みでノイズを減らし、必要な音だけを効率的に聞き取ることができるのです。

誤認識を減らし、信頼性を高められる

データ入力、電話対応といった事務作業は、比較的機械的な作業ではあるものの、時間がかかってしまう傾向にあります。また、人の手による作業ではミスが生まれにくい業務でもあるため、「できる限り効率的にミスなく進めたい」と考える人も多いことでしょう。
AIを活用した音声認識であれば、データ入力を自動化させることができるだけなく、その精度も高くすることができるため、企業としての信頼性向上につなげることができるでしょう。また、人の手による作業が必要なくなるため、人手不足という問題を抱える企業の「業務効率化」にも大きく貢献します。