Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に
最終更新日:2024/04/04
Googleのクラウドベースの音声認識サービス「Cloud Speech-to-Text」が性能を強化しています。機械学習により精度が向上した同サービスを活用すれば、インタビューなどの文字起こしのほか、会議や打ち合わせの議事録作成、コールセンターでの通話記録の作成なども自動化できるようになるのでしょうか。
今回は、この「Cloud Speech-to-Text」についてまとめました。
音声認識サービス「Cloud Speech-to-Text」はサポート言語が21言語、句読点も自動対応
Googleによると、 データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。
2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオからの文字起こしのほか、長時間の音声ファイルを再生することも可能で、音声の検索や音声コマンドもサポートしています。また、2018年にはピリオド、カンマ、疑問符といった句読点を自動的に挿入するツールのβ版も公開しました。2019年2月時点でのサポート言語の総数は21言語(方言も含む)で 、飛躍的にその性能を高めています。
(参照:ZDNet Japan グーグルの「Cloud Text-to-Speech」と「Cloud Speech-to-Text」がアップデート)
Cloud Speech-to-Textでコールセンターの通話記録を自動変換
Cloud Speech-to-Textを実際にビジネスの現場で活用する取り組みも始まっています。安価で機動力のあるクラウド型のPBXやコールセンターなどを開発するClocoは2018年11月、クラウド型コールセンターシステム「Cloco(クロコ)」にGoogle Cloud Speech-to-Text を利用した音声テキスト化機能を搭載。 これまで、音声を聞きながら手入力する必要があったコールセンターの通話記録をボタン一つで自動変換できるシステムを発表しました。
同システムには「音声テキスト化語彙機能(共通語彙機能)」や一時的にその音声のみに語彙を反映させる「追加語彙機能」といった機能も備わっており、専門用語や特定の言葉を登録すれば、さらに認識精度が向上します。
また、通話内容だけでなく、留守番電話の音声テキスト化も可能です。
コールセンターは労働集約型産業のひとつで、昨今の労働力人口の低下に伴い、人員不足が懸念されている業界です。既存のスタッフのリテンション(引き留め)や新規スタッフの強化に向けて業務の効率化が叫ばれており、こうした自動化技術が必要とされています。
(参照:PR TIMES Cloco, Google Cloud Speech-to-Text をクラウドコールセンターに導入)
多言語会議も怖くない、IBM Watsonは音声認識で会議内容をリアルタイム変換
一方、Cloud Speech-to-Textの競合であるIBM Watsonも手をこまねいてはいません。Watsonの音声認識機能である「Watson Speech to Text」を用いた会議支援サービス「AI Minutes for Enterprise」では 日本ユニシスグループのエス・アンド・アイ社がiPhoneアプリ「AI Conference」で会議内容をリアルタイムにテキスト化するオプションを開始しました。従来は専用マイクとPCの組み合わせが必要でしたが、アプリ化したことで、出張での活用も可能になっています。
AI Conferenceは、iPhoneからAI Minutesで作成された「会議」への参加や会話内容のテキスト表示・閲覧をリアルタイムで利用できるアプリケーションです。発話者ごとのやりとりが会話形式で表示され、会議への参加が遅れた場合でも過去のやりとりを参照可能です。また、テキスト入力モードでの参加も可能なので、周囲の雑音が大きかったり、発話しにくかったりといった場所からの参加もできます。
さらに、「Watson Language Translator」による多言語対応もしているため、英語、北京語、スペイン語といった多言語での会議でも、発言が参加者それぞれの設定言語に変換・表示されます。
テキスト表示された内容はコピー・編集も可能なので、Todoリストづくりや議事録作成の効率化にも役立つでしょう。
(参照:PR TIMES IBM Watsonを活用した会議支援サービス「AI Minutes for Enterprise」のiPhoneアプリ「AI Conference」の提供で”働き方改革”を促進)
音声認識の活用で効率的な働き方を模索しよう
このように、AIによる音声認識サービスは飛躍的に性能を高めており、音声を文字に変換して活用するさまざまなサービスが登場しています。業務効率化の一環として、こうしたサービスを活用し、モバイルベースでの効率的な働き方を模索してみてはいかがでしょうか。
- AIサービス
- 音声認識・翻訳・通訳
- Watson(ワトソン)
- 導入活用事例
- コールセンター
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら