生成AI

最終更新日:2026/04/17
AIで遊ぶように働く時代へ
AI技術が急速な発展を遂げる中、世界から熱い視線を浴びている音声AIのリーディングカンパニー、ElevenLabs。同社は、Text to Speech(テキスト読み上げ)、Speech to Text(音声文字起こし)、Voice Cloning(音声複製)、そして対話型AIエージェント基盤「ElevenAgents」などを通じて、企業の顧客接点や業務オペレーションにおける音声活用を多角的に支援しています 。
特に昨今、日本の深刻な労働人口の減少や、デジタル化に伴う顧客接点の高度化といった課題に対し、24時間365日、人間同様のクオリティで対応できる音声AIは、課題解決の切り札として大きな注目を集めています。従来の機械的な合成音声とは異なり、文脈や感情を解釈して人間らしい声を生成する同社の技術は、Fortune 500企業の多くで活用が進んでいるなど、世界標準となりつつあります。
今回は、ElevenLabs Japan 合同会社 Head of Marketing(Japan & Korea)の寺村 ジャック氏に、音声領域に懸けるビジョンと、日本企業が今こそAIエージェントを導入すべき真意を伺いました 。
――本日はよろしくお願いします。まず、ElevenLabsがなぜこれほどまでに音声に特化し、事業を展開しているのか。その背景からお聞かせください。

ElevenLabs Japan 合同会社 Head of Marketing(Japan & Korea) 寺村 ジャック氏
――寺村氏
ElevenLabsは、ポーランド出身の幼馴染、マティ・スタニセフスキーとピョートル・ダブコフスキーの2人によって設立されました。
当時のポーランドでは、海外映画の全キャラクターを一人の声優が吹き替える手法が一般的でした。老若男女すべてを男性が演じ、セリフも棒読みになってしまうなど、映画体験が非常に悪かったそうです。
そうした原体験から「音声体験をテクノロジーの力で良くしたい」という創業者二人の想いが、ElevenLabsの音声AI技術開発の原点となっています。
――その想いを実現するために、具体的にどのような技術を強みとされているのでしょうか。
――寺村氏
代表的な技術が、文字を音声化する「TTS(Text to Speech)」と、音声を正確に理解して文字に起こす「STT(Speech to Text)」。そして、本人の声質や話し方の特徴を反映した音声を生成できる「ボイスクローニング」です。
ElevenLabsは、これらを軸に、実用性の高い音声ソリューションを多角的に提供しています 。
――Fortune 500企業の多くで利用が進んでいるとのことですが、世界中で採用が進んでいる最大の理由は何だとお考えでしょうか。

――寺村氏
「発話」の自然さにあると考えています。
従来の合成音声は、抑揚がない、特定の単語を不自然に発音する、間がないなど、機械的な違和感がありました。
一方で我々は、「いかに人間らしい発話ができるか」「文脈を理解した上で感情を乗せて発話できるか」という、従来のAIが苦手としていた分野を得意領域としています。
この人間らしい「TTS音声」が、他社との大きな差別化につながっていると考えています。
――その高い技術力を持って、2025年に日本法人が設立されました。なぜ、アジア太平洋地域における最初のハブとして日本が選ばれたのでしょうか。
――寺村氏
理由は2つあります。まず1つは、日本が世界トップクラスの「IP大国」だという点です。アニメやゲームなどの強力なIPコンテンツを、オリジナルの世界観を保ったまま多言語展開できれば、大きなビジネスチャンスになり得ます。
2つ目は、日本の「労働人口の減少」という深刻な社会課題です。例えばカスタマーサポートのような、不可欠でありながら深刻な人手不足に直面している現場を「AIエージェント」で支える。日本は、私たちの技術が最も価値を発揮できる市場だと考えています。
――人手不足の解消という視点は、日本企業にとって非常に重要ですね。新プラットフォーム「ElevenAgents」の狙いについても教えてください。

――寺村氏
労働人口の減少やAIの台頭によって人々の役割が変化する中、今後は「必ずしも人間がやる必要のない業務」をAIエージェントが担う時代になると考えています。
しかし現在、多くのAIエージェントはパソコンやスマートフォンを介した「文字入力」による指示が主流です。
テクノロジーを利用するために高度な端末操作やデジタルリテラシーを求められるようでは、万人が使えるものにはなりません。また、識字率の高い日本では想像しにくいですが、世界を見渡せば「会話はできても、読み書きが困難」という人々は決して珍しくありません。
しかし、「対話型」であれば話しかけるだけで指示が伝わるため、音声をインターフェースにすることで「誰もが使えるツール」となるのです。我々は、「ElevenAgents」を通じてあらゆる人がAIの恩恵を享受できる世界の実現を目指しています。
――リテラシーの壁を越えるというわけですね。対話の「自然さ」を実現するために、具体的にはどのような工夫をされていますか。

――寺村氏
ElevenLabsの「対話型AIエージェント」は、OpenAIやAnthropic、Googleなどが提供するLLMと、自社開発の音声特化型モデルを組み合わせて構築しています。
人間の器官に例えるなら、外部のLLMが「頭脳」であり、我々のモデルは相手の言葉を正確に捉える「耳」と、思考を自然に発話する「口」の役割を担っています。
ただ、LLMが出力したテキストをそのまま読み上げると、会話としては長すぎて不自然になりがちです。そのため、実際の会話として適切な長さにテキストを調整する工夫を施しています。
さらに、自然な対話において「ターンテイキング(発話の交代)」の技術も重要です。相手が話し終わってから話し始める、あるいは相手が言葉を被せてきたら一旦聞く姿勢に回るなど、人間らしい対話の「さじ加減」をシステムに反映させています。
――実際の顧客対応ではクレームなどの複雑な場面もありますが、そうした状況にも対応できるのでしょうか。
――寺村氏
ElevenLabsのモデルは、感情信号や発話パターンを捉え、応答タイミングやトーンの調整に活用できます。
例えば、怒っている顧客に対して、AIがその感情を汲み取った上で最適な回答を出力することが可能です。たとえ同じ回答内容であっても、相手の温度感に応じた柔軟なトーンで対応できるのが強みです
また、自然な対話を成立させる上で何より重要なのが「レスポンスの速さ」です。低遅延でのレスポンスを実現するための投資も、重要な差別化ポイントとなっています。
――技術的な裏付けがあるからこそ、スムーズな会話が可能になるのですね。実際にElevenLabsを導入した企業では、どのような業務効率化の事例が生まれていますか。

――寺村氏
具体的な事例では、海外のインターネット銀行における顧客対応業務の改善などが挙げられます。
現在主流の音声ガイダンス(IVR)は、用件を聞いて適切な窓口へ振り分ける役割に留まっており、最終的には有人対応を必要とするケースがほとんどです。そのため、顧客がたらい回しにされたり、待ち時間が増加したりと、体験の質を下げてしまう側面がありました。
対して、私たちの「対話型AIエージェント」は、24時間対応の設計が可能で、低遅延な応答が実現します。「電話が繋がらずに用件が解決しない」というケースを最小限に抑えられるため、顧客満足度を大幅に高めることが可能です。また、単に話を聞き取るだけでなく、外部ツールや業務システムと連携し、一定の業務を自動で実行できる点が、従来のサービスとの決定的な違いです。
――一連の業務を自動で実行できるのはエージェントの大きな強みですね。貴社の「対話型AIエージェント」が活躍するのは、主にカスタマーサポートのような「受電(インバウンド)」業務になるのでしょうか。
――寺村氏
受電だけでなく、こちらから電話をかける「架電(アウトバウンド)」業務でも活用が進んでいます。
例えば海外の不動産営業では、顧客がウェブサイトで物件詳細を閲覧したことをトリガーに、AIが即座にフォローアップの電話をかけるシステムが実用化されています。
さらに、電話を通じた顧客対応にとどまらず、工場の製造ラインのような現場でも活用が期待できます。常に両手がふさがる現場では、問題が発生した場合に作業を止めて端末を操作しなければなりません。しかし「対話型AIエージェント」であれば、作業を続けながら「部品が足りない」「故障したので発注してほしい」と声で指示を出し、その場で手配を完了させることができます。
こうした取り組みは日本でも加速しており、国内でも、音声AIやAIエージェントの活用に向けた取り組みが進みつつあります。
――先行事例を伺うと、AIエージェントは人手不足解消の強力な武器になると感じます。日本企業が「今」導入に踏み切るべき理由を教えてください。

――寺村氏
最大の理由は、労働人口の減少という喫緊の社会課題への対応です。AIエージェントの導入は、深刻な人手不足を補うだけでなく、オペレーションコストの効率化を可能にします。さらに、ElevenLabsの大きな特長として「多言語への即時対応」が挙げられます。
これにより、国内市場だけでなく、言語の壁を越えたグローバル展開をスムーズに実現できるようになります。単なる効率化を超え、競合他社に対する確かな優位性を確保できる点が、今導入を検討すべき大きなメリットです。
また、もう一つの重要な理由は、現在の「発展フェーズ」にあります。導入が早ければ早いほど、開発側に自社の要望をダイレクトに届け、プロダクトの進化に反映させることができます。
「AIが完璧になってから」と待つのではなく、この時期からパートナーシップを築くことで、将来的に「自社に最適化されたツール」へと進化させられる。初期のリスクを考慮しても、それを上回る大きなリターンを得られるのは、今このフェーズからアジャイルな姿勢で歩める企業ではないかと考えます。
――早期導入のメリットは大きいですね。一方で、日本の大企業では大規模導入がなかなか進まない現状もあります。最大の壁は何だとお考えでしょうか。

――寺村氏
日本は平均的なデジタルリテラシーが高い一方で、エンタープライズ規模での大規模導入を決断し、旗振り役となれる人材が不足していると感じます。その結果、活用が現場レベルの局所的なものに留まり、全社スケールへと発展しにくいのが現状です。
この背景には、AIに対する期待の裏側にある「根強い不安」があります。欧米企業のように走りながら改善するよりもリスクを避けたいという文化的な傾向や、日本語特有の難解さゆえの精度への不安もありますが、最も決定的なのはセキュリティ面です。
自社データを預ける上で「厳しい要件を満たし、信頼を担保できているか」という点が、導入の是非を分ける重要な要因になっています。
――なるほど、組織的な旗振り役の不在と、心理的な不安の両面があるのですね。そうした懸念に対し、ElevenLabsでは具体的にどのような取り組みを行っているのでしょうか。

――寺村氏
日本企業の皆様が抱く懸念に対し、我々は万全の準備を整えています。まずセキュリティ面では、SOC 2やZero Retentionといった国際基準に対応し、国内の厳しい基準に照らしても信頼いただける環境を整えています。
また、企業のレピュテーションリスク(社会的信用の失墜)に直結する「学習データの透明性」も極めて重要視しています。音声AIの活用においては、権利・同意・セーフティを重視した運用を行っており、使用する音声はすべてライセンスを取得し、権利者の許諾を得たものに限定しています。
さらに、預かった音声資産が不正利用されないよう保護する技術も多数備えています。こうしたクリエイター側からの厚い信頼があるからこそ、企業様にも安心してお使いいただけると考えています。
――信頼を基盤に、企業はどのようにプロジェクトを推進すべきでしょうか。
――寺村氏
導入にあたって最も重要なのは、「何のためにAIを使うのか」という目的の明確化です。100ある課題を一度に解決しようとすると、リスクやコストが増大し、プロジェクトの難易度が極端に上がってしまいます。まずは特定の課題から着手し、それが解決した段階でより大きな投資にコミットする。こうした「段階的なステップ」を踏むことが重要です。
単にシステムを提供するだけでなく、具体的なユースケースの提案を通じて、共に理想の形を作り上げていく。それこそが、我々が重視するパートナーシップのあり方です。
――強固なパートナーシップのもと、「ElevenAgents」を導入した先には、どのようなビジネスの変化が待っているのでしょうか。

――寺村氏
まず、入力作業や顧客対応に費やしていた時間が大幅に短縮され、ビジネスのスピードが加速します。
さらに大きなメリットは、「人材活用の可能性」が大きく広がることです。これまでは「特定システムの操作スキル」が業務の前提条件でしたが、これからは業務知識さえあれば、音声を通じて指示を出すだけでよくなります。
「言葉が話せれば、誰でも高度なテクノロジーを使いこなせる」世界に変わるのです。これにより、減少する労働人口の中でも、これまでポジションにフィットしづらかった人材の再活用や、柔軟な人材配置が可能になると考えています。
――誰もが主役になれる、非常に前向きな未来ですね。

――寺村氏
正直なところ、誰だって楽しい仕事以外はやりたくないですよね。定型的な業務がAIに置き換わったとき、最後に残るのは、自分の魂を込めたインサイトや、純粋に「楽しい」と思えるクリエイティブな業務のはずです。
「遊ぶように仕事をする人」って、すごく強いと思うんです。AIを活用すれば、誰もがそんな働き方を実現できる。日本ではまだ「音声で指示を出すAIなんて、まだまだ先の話だ」と捉えられがちですが、だからこそ私たちはそのポテンシャルを伝え続け、日本のビジネスを一歩先へと進めていきたいと考えています。
労働人口の減少という深刻な課題に直面している日本において、ElevenLabsの自然な音声AIを活用した「対話型AIエージェント」は、単なる業務効率化のツールを超え、これまでのビジネスの在り方に新たな選択肢をもたらす可能性を秘めています。セキュリティ面や導入のハードルに対しても万全の体制を敷き、企業と同じ目線で課題に向き合い、共に歩もうとする同社のアプローチは、慎重な検討が求められる日本企業にとって、確かな安心感を与えるものになるでしょう。
今回のインタビューを通じて見えてきたのは、AIが定型的な業務を自律的にサポートし、人間が「自らの魂を込めるべきクリエイティブな仕事」により注力できる未来の姿です。ElevenLabsが掲げる「遊ぶように働く時代」は、単なる理想論ではなく、技術と信頼が結びつくことで、私たちが想像しているよりもずっと身近なものとして実現しようとしています。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら