今すぐ使える！音声合成フリーソフトの特徴を徹底比較

最終更新日:2024/07/24

近年はさまざまな場所でAIが活用され始めており、AI・人工知能という存在自体は決して珍しいものではなくなりました。多くの人が日常的に利用しているスマートフォンでもAIは手軽に利用できるため、身近な存在として捉えている方も多いのではないでしょうか。

また、最近では入力したテキストを自動で読み上げてくれる「音声合成ソフト」の活用も広がっており、多くの注目を集めています。この音声合成（音声読み上げ）技術に関しては、無料でその技術を体感できるフリーソフトも多く提供されているため、今すぐ活用していくことも可能なのです。

今回は、代表的な音声合成フリーソフトの機能や特徴などを詳しく紹介していきますので、ぜひ参考にしてみてください。

音声認識の仕組みとAIについて詳しく知りたい方は以下の記事もご覧ください。
音声認識の仕組みとは？AIとの関係性や活用例をわかりやすく解説

音声認識・通訳・翻訳のサービス比較と企業一覧を見る

そもそも音声合成ソフトって何？

冒頭でもご紹介したように、音声合成ソフトは「入力したテキストを自動で読み上げてくれるソフト」のことを指します。もともと、目が不自由な人や、小さな文字を読むのが困難な高齢者に向けて開発が進められていました。

ホームページやテキストファイルなどの文字を機会が読み上げてくれれば、字を読むことができない人でも理解することができるということです。

ただ、最近では上記の目的だけでなく、さまざまな領域で音声合成ソフトが活用され始めています。現在はコンテンツ作成において利用されるケースが多くなってきていますが、もともとは「目が不自由な人」「文字を読むのが困難な高齢者」を対象に開発が進められたという背景を理解しておくことで、よりユーザー目線を大切にできるのではないでしょうか。

ちなみに、官公庁などのホームページではすでに音声合成ソフトが導入されており、テキストを読み上げてもらえるようになっています。そのため、今後はさまざまなサイトで音声合成ソフトが導入されていく可能性もあるでしょう。

とはいえ、現状はまだ音声合成ソフトが導入されていないサイトの方が多く、ユーザー自身が音声合成ソフトを用意しなければならない状況にあります。

「さすがに音声合成ソフトの導入は大変そう」といった印象をお持ちの方も多いかもしれませんが、無料で利用できるフリーソフトも多く存在していますので、ぜひそれらを活用してみてはいかがでしょうか。

ここからは、いくつか代表的な音声合成ソフトの機能や特徴などをご紹介していきますので、ぜひ参考にしてみてください。

Voice Space

（参照：Voice Space）

Voice Spaceは、200以上のAI音声を使ってテキスト読み上げ・ボイスチェンジ・53ヶ国語の翻訳読み上げを行うことができるサービスです。

数百万ユーザーが使う音声プラットフォームstand.fmを提供するstand.fm社が提供するサービスであり、最先端のAIを用いることで自然な日本語の読み上げを可能にしています。たくさんの声の種類があるので、動画ナレーション・館内放送・Eラーニングなど利用用途にマッチしたAI音声を利用できます。機能面では、アクセント調整機能もあるので、固有名詞の読み上げも自然に行うことが可能です。

法人向けのサポートや複数アカウントでの利用、セキュリティ対策なども充実しているので企業での利用に適しています。

無料お試しが可能なwebサービスなので、ソフトのインストール不要ですぐに利用することができます。

テキストーク

・テキストーク｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

（参照：無料のテキスト読み上げソフト – テキストーク）

無料で利用できる音声合成ソフトの中でも特に高い人気を誇るのが、テキストークというフリーソフトです。このテキストークの特徴としては、「Open J Talk」というテキスト音声合成システムを採用している点が挙げられるでしょう。

日本語の場合、男性の声が1種類、女性の声が6種類用意されており、英語の場合は女性の声で1種類が用意されています。このようにラインナップが豊富であるという点も大きな特徴のひとつといえるでしょう。

また、WAVやMP3といったデータとして保存できるという点も大きな特徴のひとつです。手軽にデータの保存が行えるため、YouTubeの動画を作成する人などにも多く用いられています。

ソフトーク

・ソフトーク｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

（参照：SofTalk – アットウィキ）

ソフトークも、上記のテキストークと同様に高い人気を誇るフリーソフトです。他の音声合成ソフトと比較した際の大きな特徴としては、リピート再生機能が付いている点が挙げられるでしょう。

部分的に聞き直したい箇所がある場合でも、気軽にリピート再生によって聞き直しができるため、使い勝手の良さを感じられるフリーソフトといえるのではないでしょうか。

ただし、テキストークと比較すると声の種類は多くありません。女性・男性・ロボットから選ぶことはできますが、テキストークのように何種類もの女性の声が用意されているわけではないので、声のバリエーションを求めている人にとっては物足りなさを感じてしまうこともあるでしょう。

ですが、やはりそれ以上に使い勝手の良さが抜群に良いフリーソフトですので、使いやすさを重視している人にはおすすめのソフトといえます。

棒読みちゃん

・棒読みちゃん｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

（参照：棒読みちゃん – ダウンロード（音声合成で日本語文章を読み上げ））

棒読みちゃんは、2ちゃんねる専用のブラウザの音声読み上げに多く用いられているフリーソフトです。ただ、最近は動画のナレーションなどにも採用され始めており、さまざまな場所で活用することができます。

他のフリーソフトと比較した場合の特徴としては、声が8種類用意されている点が挙げられるでしょう。動画のテイストにマッチした音声を探している人などにとって、声が8種類も用意されているという点は高く評価できるポイントなのではないでしょうか。

VOICEVOX

商用利用も可能な音声合成によるテキスト読み上げツールとして注目を集めているのが、「VOICEVOX(ボイスボックス)」です。ヒホ(ヒロシバ)(@hiho_karuta)さんが2021年8月1日に公開し、オープンソースで開発が進められています。

VOICEVOXの仕組みとしては、入力したテキストをもとに音声合成を行い、その音声を再生・出力することができるというもの。無料で利用できる点や、無料であっても品質が高い点などが、VOICEVOXの大きな魅力です。

また、文字単位での細かいイントネーションの調整が行える点も、大きな特徴のひとつです。話す速度に加え、アクセントの付け方、音程、単語の区切り方なども設定できるため、より多彩な表現が可能になります。

そんなVOICEVOXの内部エンジンは、CPUもしくはGPUで作動します。GPUのほうが、高速かつ快適な動作を実現できますが、3GB以上のVRAMを持つNVIDIA製GPUという動作環境が推奨されているため、CPUのほうが手軽に導入できるでしょう。

ちなみに、現在は「四国めたん」と「ずんだもん」という2種類の音声ライブラリがVOICEVOXに収録されています。生成された音声はwav形式で出力することができ、使用したライブラリに応じてクレジットの記載を行えば、商用利用していくことも可能です。無料の音声合成ソフトでありながら商用利用も可能という点は、非常に大きなメリットといえるのではないでしょうか。

CoeFont STUDIO

CoeFont STUDIOは、Web上で音声合成を行うことができる音声合成サービスです。株式会社Yellstonが2021年4月23日にリリースし、現在は全サービスが期間限定で無料公開されています。終了時期は未定ですが、無料公開中はCoeFont STUDIOで出力した音声データを営利・非営利問わず自由に利用可能です。

そんなCoeFont STUDIOの特徴としては、ディープラーニングによって人間の声を高精度に再現し、Web上で音声合成を行える点が挙げられるでしょう。Web上でアクセントの調整やスピードの調整などを行うことができ、作成した音声は簡単にダウンロードできます。

また、イラストレーターの凪白みと氏がデザインしたAI音声合成キャラクターの「アリアル」「ミリアル」が、ユーザーの入力した言葉を話してくれるのも魅力のひとつです。「アリアル」は芯の通った声質が特徴で、「ミリアル」は透き通った声質が特徴となっています。

ちなみに、株式会社Yellstonでは「CoeFont CLOUD」という有料版のAI音声合成プラットフォームも提供しています。2021年7月28日に正式リリースされており、500円・15分の収録で、自然な発声のできるCoeFont(AI音声合成)を作成できるのが特徴です。

作成したCoeFontが利用されるたびに、CoeFontの作成者に収益として還元されます。また、APIを利用して、アプリやウェブサイトに組み込むことも可能です。

有料ソフトであればより高品質なナレーションの作成も可能

現在はさまざまなフリーソフトが存在しており、それぞれ異なる特徴を持っていることがお分かりいただけたかと思います。基本的には上記でご紹介したフリーソフトを活用すれば、ある程度高品質な音声を作成することができますが、より高品質な音声を作成したいという場合には、有料ソフトの導入を検討してみるのも良いでしょう。

有料ソフトの特徴として挙げられるのは、やはり「フリーソフトよりも声の種類が豊富」という点です。フリーソフトの場合は、女性・男性・ロボットというラインナップが一般的ですが、有料ソフトであれば「小さな女の子」などを選択できるものも存在します。

また、シンプルな読み上げだけでなく、ソングエディタ（歌声）を作成する機能が設けられているソフトなども存在しているため、より多様な使い方をすることができるでしょう。

さらに、フリーソフトの場合は無機質で感情のこもっていない音声が一般的ですが、有料ソフトであれば、怒りや悲しみなど、感情表現にもこだわって音声を作成することが可能です。

そのため、会話が多い文章を音声化したい人などは、有料ソフトを活用したほうが高品質な音声を作成できるでしょう。

では、具体的にどのような有料ソフトが存在するのでしょうか。いくつか代表的な有料ソフトをご紹介していきます。

Watson Text to Speech

IBMが提供している「Watson」とは

（参照：IBM Watsonの音声認識「Speech to Text」とは？）

Watson Text to Speechは、IBMが提供している音声技術のひとつです。IBMの音声技術には、「Speech to Text」という音声を文字に変換させるものと、「Text to Speech」という文字を音声に変換させるものの2つが存在します。ただ、これら2つの基本的な構造は同じであるため、それぞれの構造を別物として理解しようとする必要はありません。

たとえば、人が「あ」という音を耳にした場合、その音に対しては「あ行の最初の文字」という認識が生まれます。しかし、自然界において「あ」は、あくまでも一つの音にしか過ぎません。あ行の最初の文字としての「あ」と、音としての「あ」とでは大きく異なるということです。ちなみに、「あ」行の最初の文字としての「あ」は、音素と呼ばれます。

では、コンピューターが「あ」を音素として認識するためにはどのようにすれば良いのかというと、まずは「あ」という音のデジタル化が必要になります。そしてデジタル化された情報をスペクトル表現にすることで、はじめてコンピューターは「あ」を音素として認識できるようになるのです。ここまでの流れを「音響モデル」と呼びます。

ただし、音響モデルによってコンピューターが50音それぞれを音素として認識できるようになったとしても、「こんにちは」という言葉を言語として認識できるようにはなりません。「こ」「ん」「に」「ち」「は」という、あくまでも5つの音素が連なっただけの意味を持たないものになってしまうわけです。

そのため、コンピューターには「こ」「ん」「に」「ち」「は」をつなげると「こんにちは」という言語になることも覚え込ませなければなりません。この言語化までの流れのことを「言語モデル」と呼びます。

この「音響モデル」と「言語モデル」があるからこそ、コンピューターは「こんにちは」という言語を認識したり、「ありがとう」という言葉を「有利賀党」といった不適切な漢字ではなく「有難う」と表記したりすることもできるのです。

そして何より、IBMでは音響モデルと言語モデルを作成する過程においてAIの基礎技術ともいえる深層学習（ディープラーニング）を使っていることも大きな特徴といえます。深層学習を使っているため、日々学習を重ねていき、音声技術を鍛えていくことができているわけです。

そのため、今後さらに「Text to Speech」や「Speech to Text」の精度が高まっていくことが期待できます。それが、近年多くの企業が「Text to Speech」や「Speech to Text」を導入し始めている理由の一つなのかもしれません。

ちなみに、IBMでは、「ライト・アカウント」という期間無制限で多数のAPIとサービスが利用できるアカウントも存在するため、無料で「Text to Speech」を試すことも可能です。「Text to Speech」の音声認識機能はどの程度の精度なのか知りたいという場合には、ぜひ「ライト・アカウント」から利用してみてはいかがでしょうか。

Text to Speech

Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に｜AI・人工知能製品・サービス・ソリューション・プロダクト・ツールの比較一覧・導入活用事例・資料請求が無料でできるメディア

（参照：Googleの音声認識サービス「Cloud Speech-to-Text」で文字起こしが可能に）

Text to Speechは、Googleが提供するクラウドベースの音声認識サービスです。Googleによると、データの共有に同意した顧客からの提供データをAIに学習させたことで、サービスの性能が飛躍的に向上し、今では単語の誤りも半分以下に減ったといいます。なお、プライバシーやデータの利活用に不安を感じるユーザーは、共有に同意しないことも可能です。

2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオからの文字起こしのほか、長時間の音声ファイルを再生することも可能で、音声の検索や音声コマンドもサポートしています。また、2018年にはピリオド、カンマ、疑問符といった句読点を自動的に挿入するツールのβ版も公開しました。2019年2月時点でのサポート言語の総数は21言語（方言も含む）で、飛躍的にその性能を高めています。

Cloud Speech-to-Textを実際にビジネスの現場で活用する取り組みも始まっています。安価で機動力のあるクラウド型のPBXやコールセンターなどを開発するClocoは2018年11月、クラウド型コールセンターシステム「Cloco（クロコ）」にGoogle Cloud Speech-to-Text を利用した音声テキスト化機能を搭載。これまで、音声を聞きながら手入力する必要があったコールセンターの通話記録をボタン一つで自動変換できるシステムを発表しました。

同システムには「音声テキスト化語彙機能（共通語彙機能）」や一時的にその音声のみに語彙を反映させる「追加語彙機能」といった機能も備わっており、専門用語や特定の言葉を登録すれば、さらに認識精度が向上します。

Polly

アマゾンではAIのレンタルも開始！？｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

（参照：AIの活用に積極的なアマゾン！その導入事例を詳しく紹介）

Polly（Amazon Polly）は、その名前からも分かるようにAmazonが提供している音声読み上げサービスです。テキストを音声に変換することができるサービスで、24言語を使用することができます。

そんなPollyの特徴としては、声の種類が豊富であることが挙げられるでしょう。47の声から選択することが可能です。なお、「Amazon Polly」の料金は基本的に従量課金制となっていますが、最初の利用から12ヶ月間に限り、1ヶ月500万文字まで無料で使用することができます。

SAPI5

SAPI(Speech API)5 は、Microsoftが提供している音声認識・音声合成技術であり、 WindowsXP には標準インストールされています。Microsoftでは、MicrosoftSpeech Platform」という無料の音声合成エンジンも提供しており、こちらは、Office 2010 などに読み上げ機能を追加することを目的としたモジュールです。

ただ、この「MicrosoftSpeech Platform」をSAPI5音声合成エンジンとして利用することもできます。SAPI5対応にすることで、「ALTAIR for Windows」や「NVDA」における日本語での音声読み上げも実現可能です。

CeVIO

CeVIOは、テクノスピーチが提供している音声合成・歌声合成ソフトウェアです。2021年1月には「CeVIO AI」というディープラーニング搭載の歌声合成ソフトを発売したことで注目を集めました。

ソフト上で楽譜を打ち込み、再生ボタンを押すだけで、簡単に音声を出力することができます。その操作だけで、人間らしい歌声を出力することができるのは大きな魅力といえるでしょう。「しゃくりあげ」「ビブラート」といった、歌唱には欠かせない表現も自動で付けられます。

メインボーカルとして起用する場合にはもう少し調整が必要になるかもしれませんが、作曲中の仮歌に使う程度であれば、一才文句のないクオリティといえるのではないでしょうか。

AITalk5

AITalk5は、PCでテキスト入力を行うだけで、簡単に音声ファイルを作成することができるナレーション作成ソフトです。「AITalk」という音声合成エンジンが採用されており、誰でも使用できる直感的な操作によって高品質なナレーション音声を作成できます。

そんなAITalk5は、これまでのような機械音ではなく、人の声で合成する「コーパスベース音声合成方式」という技術が採用されています。また、ディープラーニングを新たに導入した「DNN音声合成方式」も採用されており、これら2つを利用シーンに応じて使い分けることで、より人間らしい豊かな音声を実現できているのです。