DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に

最終更新日:2024/04/04

Googleのクラウドベースの音声認識サービス「Cloud Speech-to-Text」が性能を強化しています。機械学習により精度が向上した同サービスを活用すれば、インタビューなどの文字起こしのほか、会議や打ち合わせの議事録作成、コールセンターでの通話記録の作成なども自動化できるようになるのでしょうか。
今回は、この「Cloud Speech-to-Text」についてまとめました。

音声認識サービス「Cloud Speech-to-Text」はサポート言語が21言語、句読点も自動対応

Googleによると、 データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。
2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオからの文字起こしのほか、長時間の音声ファイルを再生することも可能で、音声の検索や音声コマンドもサポートしています。また、2018年にはピリオド、カンマ、疑問符といった句読点を自動的に挿入するツールのβ版も公開しました。2019年2月時点でのサポート言語の総数は21言語(方言も含む)で 、飛躍的にその性能を高めています。

(参照:ZDNet Japan グーグルの「Cloud Text-to-Speech」と「Cloud Speech-to-Text」がアップデート)

 

Cloud Speech-to-Textでコールセンターの通話記録を自動変換

Cloud Speech-to-Textでコールセンターの通話記録を自動変換|AI・人工知能製品・サービス・ソリューション・プロダクト・ツールの比較一覧・導入活用事例・資料請求が無料でできるメディア

Cloud Speech-to-Textを実際にビジネスの現場で活用する取り組みも始まっています。安価で機動力のあるクラウド型のPBXやコールセンターなどを開発するClocoは2018年11月、クラウド型コールセンターシステム「Cloco(クロコ)」にGoogle Cloud Speech-to-Text を利用した音声テキスト化機能を搭載。 これまで、音声を聞きながら手入力する必要があったコールセンターの通話記録をボタン一つで自動変換できるシステムを発表しました。
同システムには「音声テキスト化語彙機能(共通語彙機能)」や一時的にその音声のみに語彙を反映させる「追加語彙機能」といった機能も備わっており、専門用語や特定の言葉を登録すれば、さらに認識精度が向上します。
また、通話内容だけでなく、留守番電話の音声テキスト化も可能です。
コールセンターは労働集約型産業のひとつで、昨今の労働力人口の低下に伴い、人員不足が懸念されている業界です。既存のスタッフのリテンション(引き留め)や新規スタッフの強化に向けて業務の効率化が叫ばれており、こうした自動化技術が必要とされています。

(参照:PR TIMES Cloco, Google Cloud Speech-to-Text をクラウドコールセンターに導入)

 

多言語会議も怖くない、IBM Watsonは音声認識で会議内容をリアルタイム変換

一方、Cloud Speech-to-Textの競合であるIBM Watsonも手をこまねいてはいません。Watsonの音声認識機能である「Watson Speech to Text」を用いた会議支援サービス「AI Minutes for Enterprise」では 日本ユニシスグループのエス・アンド・アイ社がiPhoneアプリ「AI Conference」で会議内容をリアルタイムにテキスト化するオプションを開始しました。従来は専用マイクとPCの組み合わせが必要でしたが、アプリ化したことで、出張での活用も可能になっています。
AI Conferenceは、iPhoneからAI Minutesで作成された「会議」への参加や会話内容のテキスト表示・閲覧をリアルタイムで利用できるアプリケーションです。発話者ごとのやりとりが会話形式で表示され、会議への参加が遅れた場合でも過去のやりとりを参照可能です。また、テキスト入力モードでの参加も可能なので、周囲の雑音が大きかったり、発話しにくかったりといった場所からの参加もできます。
さらに、「Watson Language Translator」による多言語対応もしているため、英語、北京語、スペイン語といった多言語での会議でも、発言が参加者それぞれの設定言語に変換・表示されます。
テキスト表示された内容はコピー・編集も可能なので、Todoリストづくりや議事録作成の効率化にも役立つでしょう。

(参照:PR TIMES IBM Watsonを活用した会議支援サービス「AI Minutes for Enterprise」のiPhoneアプリ「AI Conference」の提供で”働き方改革”を促進)

 

AI Logの詳細を見る

 

Knowledge Discoveryの詳細を見る

 

音声認識の活用で効率的な働き方を模索しよう

このように、AIによる音声認識サービスは飛躍的に性能を高めており、音声を文字に変換して活用するさまざまなサービスが登場しています。業務効率化の一環として、こうしたサービスを活用し、モバイルベースでの効率的な働き方を模索してみてはいかがでしょうか。
 

pids=801,2273
AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Xもフォローください
@AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aiaismiley1345

メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら