生成AI

最終更新日:2026/02/16
Fish Audioの使い方や料金は?
Fish Audioは、入力したテキストを自然な音声に変換するAI音声合成サービスです。
本記事では、基本的な使い方から料金プラン、商用利用時の注意点まで詳しく解説します。
YouTube動画のナレーション制作やeラーニング教材の音声化を検討している方、コストを抑えながら高品質な音声コンテンツを作りたい方に役立つ情報をまとめました。

Fish Audioは、テキストを入力するだけで人間らしい音声を生成できるAI音声合成サービスです。
従来の読み上げソフトは機械的な発音が目立ちましたが、Fish Audioは感情表現が豊かで、実際の人間が話しているような自然な抑揚を実現しています。
このサービスが注目される理由は3つあります。
それぞれ詳しく解説していきます。
Fish Audioは「Fish-Speech」というAIモデルを採用しています。
このモデルは、テキストの意味を理解してイントネーションを自動調整することが可能です。
例えば「本当ですか?」という文章を読み上げる際、疑問文として自然な語尾の上がり方を再現します。
また、感情表現の指定も特徴的です。テキスト内に感情タグを挿入することで、同じ文章でも「喜び」「怒り」「悲しみ」といった異なる感情で読み上げられます。
具体的に、ドラマの台本やキャラクターボイスの制作では、セリフごとに感情を切り替えることで、リアリティのある演技を表現できます。
ナレーションだけでなく、物語やプレゼンテーションなど、幅広い用途で活用できる音声が生成可能です。
Fish Audioは日本語のほか、英語、中国語、韓国語など13言語以上に対応しています。
例えば、日本語で作成したYouTube動画のスクリプトを英語に翻訳し、同じプラットフォーム内で英語音声を生成できます。
企業の研修教材やeラーニングコンテンツでも、多言語対応は重要です。海外拠点のスタッフ向けに現地語で音声教材を作成する際、翻訳業者や音声収録スタジオを手配する必要がありません。
Fish Audio一つで、言語を切り替えながら統一された品質の音声を制作できます。言語の壁を超えて、一つのツールで多様な音声コンテンツを作成できる利便性は、グローバル展開を考える企業にとってメリットです。
Fish Audioは、Hanabi AI Inc.という企業が開発・運営しています。
公式サイトでは、機能のアップデート情報や利用ガイドが定期的に公開されており、ユーザーコミュニティも活発です。GitHubでの技術情報の共有や、Discord上でのサポート対応など、開発者とユーザーが直接やり取りできる環境が整っています。
セキュリティ面では、アップロードした音声データの暗号化やプライバシー保護の取り組みが実施されています。
特に、「ボイスクローン機能」で使用する個人の音声サンプルは、「プライベート設定」にすることで他のユーザーに公開されない仕組みです。
また、利用規約では権利侵害や不正利用を明確に禁じており、違反者への対処方針(アカウント停止など)も記されています。

Fish Audioには、テキスト読み上げ以外にもいくつかの機能が搭載されています。
主な機能を以下の表にまとめました。
| 機能名 | 概要 |
| テキスト読み上げ (TTS) | テキストを入力するだけで自然な音声を生成する基本機能 |
| ボイスクローン | 短い音声サンプルから、特定の人間の声を再現する機能 |
| 高度な編集 | 感情タグやポーズ(間)を指定して、演技のような発話をさせる機能 |
| API連携 | 自社アプリやサービスに音声合成機能を組み込むための開発者向け機能 |
これらの機能を組み合わせることで、単純なナレーションから、キャラクターボイス、ビジネス用の自動応答システムまで、幅広い用途に対応できます。
テキスト読み上げは、Fish Audioの基本機能です。入力した文章を音声に変換する仕組みで、長文でも自然なイントネーションで読み上げられます。

読み上げの精度が高いため、句読点や改行の位置に応じて適切な間が挿入されます。
例えば「昨日、駅前のカフェに行きました」という文章では、読点の後にわずかな間が入り、句点の後には少し長めの間が自動的に挿入されます。このため、聞き手にとって理解しやすい音声になります。
YouTube動画のナレーション、オーディオブック、プレゼンテーション資料の読み上げなど、様々な場面で活用できます。音声の編集ソフトを使わずに、テキストを準備するだけでナレーションが完成する手軽さが魅力です。

ボイスクローン機能は、15秒から30秒程度の音声サンプルをアップロード(または録音)することで、その声の特徴を学習し、同じ声質でテキストを読み上げられるようにする機能です。
この機能は、動画のナレーションを自分の声で統一したいときや、キャラクターボイスを作成したいときに便利です。
精度の高いクローンを作成するには、ノイズの少ない環境での録音が重要です。静かな部屋で、マイクに向かってはっきりと話した音声サンプルを使うことで、より自然なクローン音声が生成されます。
Fish Audioでは、テキスト内に特定のタグを挿入することで、笑い声や息継ぎ、間を自由にコントロールできます。
例えば「こんにちは[laughing]」と入力すると、「こんにちは」の後に笑い声が挿入された音声が生成されます。
全体では64以上の感情表現やオーディオエフェクトを用意されています。

声のトーンやスピード、ピッチなどの詳細設定も可能です。
Fish AudioはAPIを提供しており、自社のアプリやWebサービスに音声合成機能を組み込めます。
例えば、カスタマーサポート用のチャットボットに音声回答機能を追加したり、スマートフォンアプリに読み上げ機能を実装したりできます。
APIの利用方法や詳細な仕様は、Fish Audioの公式サイトで確認できます。開発者向けのサンプルコードやチュートリアルも公開されているため、技術知識があれば比較的スムーズに導入できます。

Fish Audioは無料で使い始められますが、本格的な利用には有料プランの契約が必要です。
無料プランでは、テキスト読み上げやボイスクローンといった基本機能を利用できます。
ただし、1日あたりの生成回数や月間の生成時間に制限があります。毎月8,000クレジットまで使用でき、1生成あたり最大500文字までとされています(※制限は変更される可能性があります)。
お試し程度であれば、無料プランでも活用できるでしょう。
ただし、商用利用には制限があるため、YouTubeの収益化動画や企業のプロモーション用途で使う場合は、有料プランへのアップグレードが必要です。
Fish Audioの有料プランには「Plus」と「Pro」の2種類があります。
| プラン名 |
Plus(クリエイター向け) |
Pro(ビジネス向け) |
|---|---|---|
| 料金 (月額/年額) | $15 (年払い時: $11/月相当) |
$100
(年払い時: $75/月相当) |
| 付与クレジット (月間) | 250,000 | 2,000,000 |
| 生成時間の目安 | S1モデル:約200分 v1.5/1.6:約400分 |
S1モデル:約27時間
v1.5/1.6:約54時間 |
| 主な特典・機能 | 商用利用可能
|
大規模な利用に最適
|
※2026年2月時点
Plusプランは、YouTubeクリエイターや個人事業主に適しています。Proプランは、大量の音声コンテンツを制作する企業や、複数のプロジェクトで音声合成を活用する場合に向いています。
なお、商用利用を目的とする場合は、必ず有料プランへの加入が必要です。
Fish Audioでは「クレジット」というポイントシステムを採用しています。音声を生成する際、使用するAIモデルや生成時間に応じてクレジットが消費されます。例えば、高品質な「S1モデル」を使うと、より多くのクレジットが必要になります。
有料プランに加入すると、月ごとにクレジットが付与されます。Plusプランでは月間250,000クレジット、Proプランでは2,000,000クレジットが利用可能です。
クレジットを無駄なく使うコツは、用途に応じてAIモデルを使い分けることです。高品質が求められるナレーションにはS1モデルを使い、テスト用の音声生成には軽量なモデルを使うことで、コストパフォーマンスを最大化できます。
Fish Audioを実際に使って音声を生成するまでの手順を、3つのステップに分けて解説します。
まず、Fish Audioの公式サイト(https://fish.audio/ja/app/)にアクセスします。
トップページの左下に「ログイン」ボタンがあるので、クリックします。アカウント作成には、Googleアカウント、GitHubアカウント、またはメールアドレスが利用できます。

Googleアカウントでログインする場合、「Google」を選択し、Googleの認証画面で許可すれば完了です。
メールアドレスで登録する場合は、パスワードを設定し、届いた確認メールのリンクをクリックして認証します。
ログイン後、ダッシュボード画面が表示されます。左側のメニューから「音声合成」を選択します。
テキスト入力欄が表示されるので、音声化したい文章を入力します。
例えば「こんにちは。Fish Audioへようこそ。」と入力してみてください。

次に、使用するボイスモデルを選択します。
右欄の「ボイスモデルを選択してください」をクリックして好きなモデルを選びましょう。
言語を指定したり、キーワードで検索したりすることも可能です。


ボイスモデルを選択したら、画面下欄にある「生成して再生」ボタンをクリックすると音声が生成されます。
再生ボタンを押してプレビューし、問題なければダウンロードボタンをクリックしてMP3ファイルとして保存できます。
ボイスクローンを作成するには、左側のメニューから「ボイスクローン」を選択します。

音声の入力方法は「アップロード」と「録音」です。録音はデスクトップ上でそのままできますが、ファイルをアップロードする場合はMP3、WAV、M4Aなどのファイル形式で用意してください。
音声入力が完了したら、「音声詳細」をクリックして、モデル名やタグなどを設定しましょう。
ボイスモデルの公開範囲を「公開」「非公開」「プライベート」から指定できます。
ただし、非公開及びプライベートの設定は有料プランでのみ選択可能です。

最後に「作成」ボタンをクリックすると、AIが音声サンプルを分析し、ボイスモデルを生成します。

AI音声合成技術は便利ですが、権利関係や倫理面で配慮することが必須です。
トラブルを避けるために、以下の3つのポイントを確認しましょう。
無料プランでは、基本的に商用利用が制限されています。
「商用利用」とは、YouTubeの収益化動画、企業のプロモーション動画、有料教材の音声など、直接的または間接的に収益を得る目的で使用することを指します。
例えば、YouTubeチャンネルで広告収益を得ている場合、そのナレーションにFish Audioを使うには有料プランへの加入が必要です。企業が自社サイトの紹介動画に音声を使う場合も、商用利用に該当します。
ライセンス違反を避けるためには、Fish Audioの公式サイトで最新の利用規約を確認することが重要です。規約は更新されることがあるため、定期的にチェックすることをおすすめします。
有名人や他人の声を無断でクローンして公開することは、肖像権やパブリシティ権の侵害になる可能性があります。例えば、著名な声優やタレントの声を模倣して動画を作成し、その人物が話しているかのように見せることは違法です。
AI生成音声であることを明示することも重要です。視聴者が本人の声だと誤解しないよう、動画の説明欄やクレジットに「AI音声合成を使用しています」と記載しましょう。
また、他人を傷つけたり、誤情報を拡散したりする目的での利用は絶対に避けるべきです。
Fish Audio側も、利用規約で違法な利用に対しては責任を負わない姿勢を示しています。ユーザー自身が責任を持って、倫理的な利用を心がける必要があります。
Fish Audioで生成した音声データの著作権は、基本的にユーザーに帰属します。ただし、利用規約によっては、特定の条件下での使用に制限がかかる場合があります。
特に、GitHubで公開されているオープンソース版の「Fish Speech」を利用する場合は、CC-BY-NC-SA-4.0ライセンスが適用されることがあります。
このライセンスは「非営利目的であれば自由に使用できるが、商用利用には制限がある」という内容です。
一方、Webサービス版で有料プランを契約している場合は、商用利用が許可されます。
トラブルを未然に防ぐためには、生成した音声をどのように使用するのか、事前に利用規約で権利関係を確認することが重要です。不明点があれば、Fish Audioのサポートに問い合わせることをおすすめします。

Fish Audioの高機能な音声合成は、個人の創作活動からビジネスまで幅広く活用できます。具体的な利用シーンとして、以下の3つのカテゴリーを紹介します。
顔出しなしのYouTube動画では、Fish Audioのナレーション機能が重宝します。
例えば、解説動画やゲーム実況、商品レビューなどで、自分の声を使わずにナレーションを追加できます。
VTuber活動では、キャラクターごとに異なる声を作成できます。感情タグを使ってセリフに演技を加えることで、キャラクターの個性を表現できます。
多言語対応を活かせば、海外視聴者向けの動画も簡単に作成できます。
例えば、日本語で作成した解説動画のスクリプトを英語に翻訳し、英語音声を生成することで、グローバルな視聴者にリーチできます。
テキスト教材を音声化することで、通勤中や家事をしながらでも学習できる「聴く学習」コンテンツを作成できます。
例えば、大学の講義資料や資格試験の参考書をFish Audioで読み上げることで、復習用の音声教材が完成します。
語学学習では、発音サンプルとして活用することも可能です。英語のリスニング教材を作成する際、ネイティブスピーカーの音声を用意する代わりに、Fish Audioの英語モデルを使用できます。
視覚障害者向けのアクセシビリティ向上や、高齢者向けの読み上げサービスとしても有効です。
教材の内容を更新する際も、テキストを修正して再生成するだけで音声をアップデートできるため、修正作業が容易です。
企業の電話自動応答システム(IVR)では、Fish Audioを使って自然な案内音声を作成できます。これまでの機械的な音声よりも、顧客に好印象を与えられるでしょう。
社内研修動画やプレゼンテーション資料のナレーションとしても活用できます。PowerPointのスライドごとに説明文を用意し、Fish Audioで音声を生成することで、自動再生される研修動画が完成します。
多言語対応により、海外支店向けの研修資料や、グローバル顧客向けのプレゼンテーションもスムーズに作成することが可能です。翻訳と音声生成を同じプラットフォームで完結できるため、制作工程が効率化されます。
Fish Audioは、テキストを自然な音声に変換するAI音声合成サービスです。感情表現が豊かで、日本語を含む多言語に対応しており、YouTube動画のナレーションやeラーニング教材、ビジネスの自動応答システムなど、幅広い用途で活用できます。
無料プランでも基本機能を利用できますが、商用利用には有料プランへの加入が必要です。ボイスクローン機能を使う際は、肖像権や著作権に十分注意し、倫理的な利用を心がけましょう。
公式サイトで最新の利用規約を確認し、自分の目的に合ったプランを選ぶことで、安心して高品質な音声コンテンツを制作できます。
アイスマイリーでは、生成AI のサービス比較と企業一覧(音声生成AI)を無料配布しています。課題や目的に応じたサービスを比較検討できますので、ぜひこの機会にお問い合わせください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら