AIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索・資料請求サイト
TEL
MAIL
03-6452-4750

日本語の最も利用されている音声認識AIエンジンはAmiVoice—東京アーカイブセンター調査

最終更新日:2021/07/13

株式会社東京アーカイブセンターが提供する「AI文字起こし」サービスは、2020年9月のサービス開始から9カ月で10,000件を超える利用がありました。サービスで利用された10,783件対象にした調査レポートを同社が発表しました。

「AI文字起こし」サービスは会員登録不要ですぐに利用可能で音源1分あたり33円、9カ国語に対応。Google、Azure、AmiVoice、3種類のAI音声認識エンジンを利用できるサービスです。

利用状況について集計を行い、日本におけるAI音声認識エンジンの利用状況についてレポートを作成。データは受付状況をマーケティングデータとして集計したものであり、利用者の情報や音声内容については一切特定せず、また加工や学習データとしての利用を行っていないそうです。

1.9カ国語のうち、日本語の受付割合が97.4%

 

AI文字起こしで利用可能な9カ国語(日本語、英語、中国語、スペイン語、フランス語、韓国語、イタリア語、ドイツ語、ロシア語)のうち、日本語の割合が97.4%、その他言語の割合が2.6%。その他言語は英語、韓国語、スペイン語の順番に多く利用されています。

 

2.日本語での受付のうち、もっとも利用されている音声認識エンジンはAmiVoice Cloud

 

日本語での受付に絞って集計した場合、3つの音声認識エンジンのご利用割合は以下のとおり。

  • AmiVoice Cloud Platform 受付割合:85.8%
  • Google Cloud Speech-to-Text 受付割合:8.6%
  • Microsoft Azure Speech to Text 受付割合:5.6%

「AI文字起こし」サービスでは3つの音声認識エンジンで音声の冒頭60秒間を無料でテキスト化した後に利用エンジンを選択するフローであるため、この範囲の文字起こし精度で利用エンジンが決定されていると考えられます。

 

3.音源ファイルの平均時間は37.5分、リピート率は31.2%でほとんどが音声ファイル

 

音声ファイルや動画ファイルとも受付可能なサービスだが、mp3ファイルやiPhoneでの録音形式であるm4aファイルでの利用が多く、動画をそのままアップロードする方は8.2%にとどまりました。受付可能時間最大120分で、受付した音声/動画を平均すると1案件あたり37.5分。利用方法として、短時間音声を多数利用されるケースや120分近い会議音声を利用されるケースも多く見受けられます 。

複数回依頼されているリピートユーザーは31.2%。新しいサービスのため新規ユーザー割合が高く表れがちなこともあるが、通常の文字起こしマーケットのリピート率より明らかに低いため、現状では音声認識の結果に満足度が低い可能性が想定されます。

 

【調査概要】
・調査対象:AI文字起こしサービス利用者
・集計対象期間:2020年9月~2021年5月
・集計対象数:10,783件
・集計対象とするAI音声認識エンジン
-Google Cloud Speech-to-Text
-Microsoft Azure Speech to Text
-AmiVoice Cloud Platform(株式会社アドバンスト・メディア)
※AmiVoice Cloud Platformは日本語のみ対応

 

出典:PR TIMES

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら