TASUKIアノテーションツール
TASUKI
アノテーションツール
パッケージ化したデータセットをオンライン販売
audioコーパス株式会社が提供する「audioコーパス データセット」は、発話音声および書き起こしテキストに、タグなどを付与したデータセットのパッケージ商品となります。 お好きな発話カテゴリよりお買い求めいただけます。
発話収録のプロ
audioコーパスは、さまざまな発話カテゴリのデータセットを取り扱っています。自社リソースで収録、知的財産権など権利関係の利用許諾が取れた正規データを販売。安全にご利用いただけるリアリティある発話データです。書き起こしのプロ
audioコーパスの書き起こしは、表記の「ゆらぎ」がありません。記者やライターが用いる記者ハンドブック(共同通信社発刊)の仕様に準じ、熟練され表記統一されたプロ仕様による書き起こしデータです。コーパスのプロ
audioコーパスでは、AI学習用途のタグを付与。「フィラー(F)」「言い直し(D)」「延伸(:)」「笑い<笑>」「不明瞭(?)」をラベリング、音声認識にとってノイズとなりうる言語情報を可視化しています。音声認識エンジンには学習用の教師データが欠かせません。
教師データ作成の流れは、一般的には自社で録音データを用意し、書き起こし業者に業務委託、1~2カ月ほどの作業期間を経て、データを完成させます。
「人手でデータ作成するんだから、お金と時間がかかるのは当たり前」
そう思われてる方が多いですが、ポイントは3つあります。それは、1.コスト 2.品質 3.発話の偏り です。
商品をパッケージ化することで、比率の高い原価を吸収。即時納品に対応します。
文字起こし業界10年以上の知見、音声認識AIに特化した豊富な書き起こし実績による監修。
AI開発現場の生の声から、今求められてる発話カテゴリを製作。
音声認識AI市場のパートナーとしてオンリーワンの存在となります。
audioコーパス データセットは、1分当たり350円(税抜)となります。
※データセット内容:音声データ(wav)音声)/テキストデータ(txt/eaf)
音声データ…カスタマー、オペレーターにてステレオ録音された2チャンネル音源です
テキストデータ…書き起こし、区間区切り、タグ付与されたテキストデータです
即時納入…データはすぐにご利用いただけます。
区切りマージン200msec…発話の始端と終端のタイムスタンプの誤差は0.2秒以内に抑えます。
表記統一・ゆらぎ防止…書き起こしプロフェッショナルにより、言葉のゆらぎを防ぎます。
6つのアノテーションタグ…フィラー、言い直し、延伸、聞き取り不明、未確証、笑いのタグを付与。
品質担保…初稿作業、校正作業、チェッカーによるトリプルチェック体制。
カスタマイズ対応…ご要望の仕様にも対応いたします。
従来、書き起こし市場の相場として、請負業者に文字起こしを依頼すると1分当たり300円(税抜)ほどの外注費がかかります。
この300円は、音声から文字に起こす費用のみとなるので、これにアノテーション要件を追加すると、2倍近くに増額することも珍しくありません。
さらに、音声データはご自身で用意し、仕上がりの納期まで待たなくてはいけません。
audioコーパス株式会社は「音声認識のブースターに」を企業理念に、高品質なデータセットを即納することで、音声認識AI市場を後方より支援します。
購入ステップはシンプル!
ご希望の「発話カテゴリ」と「購入データ量」をお申し付けください。
代表より「会社設立のきっかけは、著作権フリーの発話データが市場にとても少なかったことです。人の声というのは、肖像権また個人情報としても権利が守られているものになります。もちろん無許可で利用することはできません。ぜひパッケージされた安心安全・高品質なaudioコーパスを利用して、AI開発に取り組んでいただけたら幸いです」
audioコーパス株式会社が提供する「audioコーパス データセット」は、発話音声および書き起こしテキストに、タグなどを付与したデータセットのパッケージ商品となります。 お好きな発話カテゴリよりお買い求めいただけます。
AI製品・ソリューションの掲載を
希望される企業様はこちら