音声認識の有名議事録作成ツールを紹介！官公庁や自治体で続々導入!

最終更新日:2024/02/29

音声認識の議事録作成ツール

「会議の議事録づくりが面倒」と感じている人は決して少なくないでしょう。録音されたテープを聞きながら文字を起こしていくのは、決して楽な作業ではありません。当然、人にはミスがつきものですから、場合によっては聞き間違いなどをしてしまう可能性もあるわけです。重要な言葉を聞き間違えてしまえば、その後重大なトラブルになる可能性もあります。

そういったミスを最小限に留め、より効率的に議事録を作成するための方法として最近注目されているのが、音声認識機能を活用した議事録の作成です。民間企業だけでなく、官公庁や自治体などでも続々導入され始めており、今後特に期待される分野の一つと言っても過言ではありません。

今回は、そんな議事録作成ツールを活用することのメリット・デメリットや活用事例を解説するとともに、おすすめの議事録作成ツールもご紹介していきますので、ぜひ参考にしてみてください。

音声認識の活用事例について詳しく知りたい方は以下の記事もご覧ください。
音声認識AI×営業支援の活用事例を紹介！営業現場の業務効率化

議事録作成を効率化する音声認識技術の仕組み

議事録の作成を効率的に行うための方法として注目を集めている音声認識ですが、具体的にどのような仕組みで成り立っているものなのでしょうか。まずは、その具体的な仕組みについてみていきましょう。

そもそも言葉というものは、調節器官を用いて発せられるものであり、人間の目には見えない音波として耳に届きます。音声認識技術は、その音波を読み取った上で音の最小構成単位の「音素」を特定し、テキストに変換していくという仕組みです。ちなみに「音素」は、日本語の場合だと以下のようなものが該当します。

あいうえお（母音）
ん（撥音）
23種類の子音

たとえば「おはよう」という言葉の場合、音素として抽出するとo-h-a-y-oとなり、アルファベット一つひとつが音素となるわけです。この音素をもとにしてテキスト化を行っていくのが、音声認識の仕組みとなります。

ちなみに、テキスト化までのプロセスは以下の通りです。

マイクなどの音声入力装置で人の声を録音
ノイズや雑音といった不要な音声を取り除く
音波から音素を特定する
音素の並びを特定した上で単語に変換していく
単語の並びから文章を作成し、テキスト化する

上記のプロセスからもお分かりいただけるように、ただ音素を抽出しただけではテキスト化を行うことはできません。音素を特定し、意味のある単語として認識させることが必要になるのです。

議事録作成に音声認識機能を利用することで得られるメリット

議事録を作成する際に音声認識機能を活用すると、具体的にどのようなメリットが得られるのでしょうか。いくつか代表的なメリットをみていきましょう。

音声認識によって業務スピードの向上が期待できる

最も大きなメリットとして挙げられるのは、業務スピードの向上が期待できるという点です。これまで、議事録の作成業務はすべて手作業で行うのが一般的でした。そのため、議事録担当者が会議中に手書きで議事録を取ったり、パソコンで議事録を取ったりする必要がありました。

また、すべての内容を一度で完璧に聞き取れるとは限らないため、場合によってはレコーダーを聞き直して加筆しなければならないケースもあります。そのような作業を経た上で、体裁を整えて議事録として社内に共有していくため、どうしても社内への共有までに時間を要してしまうことが多かったのです。

このような方法では、一日に多くの会議が設けられている日には対応が追いつかなくなってしまうことも少なくありません。その点、議事録作成に音声認識機能を活用すれば、議事録の作成にかかる時間を大幅に削減することが可能になります。つまり、議事録作成担当者の負担を軽減させられるだけでなく、社内全体の業務スピードも向上させられるということです。生産性の向上につながるという点でも、議事録作成の効率化には大きなメリットがあるといえるでしょう。

より価値のある業務にフォーカスすることができる

担当者が議事録の作成業務にリソースを取られている間、その他の業務には手を回すことができなくなってしまいます。とはいえ、議事録の作成を後回しにしてしまえば、会議の内容を共有するのが遅れてしまうため、結果的に社内全体の業務効率の悪化につながってしまいかねません。特に近年は人手不足が深刻化していますので、いかに業務効率を高めるかという点は重要なポイントといえます。

そのような点を踏まえると、音声認識機能を活用して議事録作成を行えば、より効率的に議事録を作成できるだけでなく、担当者が価値のある業務にフォーカスできるというメリットも生まれます。それは、事業やプロジェクトを成功に導く上でも大きな魅力といえるのではないでしょうか。

外国語が得意ではなくても会議に参加できるようになる

海外の企業とのやり取りが頻繁に発生する企業の場合、外国語で会議が行われるというケースも少なくありません。そのような企業の場合、外国語ができない人は、誰かに通訳してもらったり、会議後に翻訳された資料を読み込んだりする必要がありました。

しかし、翻訳機能のある議事録作成ツールを活用すれば、外国語ができない人でもスピーディーに会話内容を把握できるようになるため、より積極的に会議に参加することが可能になるのです。

音声認識による議事録作成ツールのデメリット

■議事録作成ツールのデメリット

議事録作成ツールにはさまざまなメリットがありますが、必ずしもメリットばかりというわけではありません。たとえば、多くの雑音が入り込んでしまうような環境で録音を行った場合、議事録作成ツールの精度が落ちてしまう可能性が高まります。その場合、人の手によって修正を行わなければなりません。

また、仮に文字起こし機能が正常に動作していたとしても、最終的なチェックを行ったり修正を行ったりする際には、人の手による作業が必要となります。そのため、議事録作成に関するすべての作業を自動化できると思い込んだままツールを導入してしまうと、かえって混乱を招いてしまう可能性もあります。

とはいえ、議事録作成ツールによって業務を大幅に効率化できることは間違いありませんので、あらかじめ「議事録作成ツールを運用する体制」を整えておくことが大切になります。

Googleドキュメントの音声認識は議事録作成に有用か？

Googleドキュメントの音声認識はどれくらいの実力？｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

無料で手軽に音声認識機能を試せるツールとしては、Googleドキュメントの音声入力が挙げられます。

Googleの音声入力機能の強みは、変換のスピードとその正確性です。タイピング入力だとつまずいてうまく文章が作成できないという人でも、音声入力なら話をする感覚で入力できるのでスムーズに作業が進むということもあるようです。

また、さまざまな端末で使用することができるという点も、Googleの音声入力機能の強みといえます。Googleドキュメントは、PCだけでなくiOS（iPhone）やAndroidのスマートフォンアプリでもフリー利用が可能です。アプリから新規ドキュメントを作成し、URLをパソコンと共有すれば、スマートフォンで音声入力したものをパソコンでテキスト表示させることができます。

このときに注意しなければならない点として、Googleの音声入力は、紙をめくる音や周囲の雑音によって音声認識が途切れてしまうことが少々あるという点です。雑音が多い複数人での会議の音声をそのまま議事録として完璧に文字に起こしをするのは難しいため、パソコンにリアルタイム表示されたテキストを修正する工程も加えることで、より正確な議事録を作成できます。

もしくは、録音した会議の内容を聞きながら自分で読み上げて、それを音声入力機能に認識させて文字化するといった使い方も、議事録の作成が可能です。中には、文章を書くことが得意でない方もいらっしゃるかもしれません。そのような方であっても、音声入力という機能があれば自動的に違和感のない文章にしてくれるため、よりスムーズに議事録の作成を行えるわけです。

また、タイピングが得意ではないという方であっても、音声認識を活用すれば修正でのタイピング作業だけに抑えられるため、そのような方はぜひGoogleドキュメントの音声認識を使用してみてはいかがでしょうか。

（参照：applica　Googleドキュメントの音声入力でテキスト化する使い方！文字認識できない時は？）

「Microsoft 365」の「Word for Web」や「Teams」に音声文字起こし機能実装

■「Microsoft 365」の「Word for Web」や「Teams」に音声文字起こし機能実装

（参照：「Microsoft 365」の「Word for Web」に文字起こし機能～インタビュー記事や議事録の作成が簡単に – 窓の杜）

Microsoft （マイクロソフト）365で提供されている「Word for Web」や「Teams」では、音声文字起こし機能が実装されており、この機能に音声認識技術が活用されています。その詳細をご紹介すると、「Word for Web」場合、AIプラットフォーム「Azure Cognitive Services」を活用することによって、音声の会話を文字に起こしたり、複数の話者を検出・区別したりすることが可能です。Wordに統合されているので、文字起こしされた会議の決定事項をWord機能によって校正したり、共同編集したりできるのは大きな魅力といえます。

ちなみに、「Word for Web」を利用して録音や書き起こしを行う際、音声の長さや文字数に制限は設けられていません。ただし、録音データをアップロードする場合、1ヶ月あたりの音声の長さは5時間まで、ファイルサイズは200MBまでという制限が課されますので、この点には注意が必要です。

また、最近ではWindows版「Microsoft Word」アプリにおいても、文字起こし（Transcribe）が使用できるようになりました。近年は音声認識の活用シーンが広がっているため、今後Wordにおける音声認識活用の流れもより活発になっていくと考えられます。そして「Teams」では、ライブ文字起こし（ライブトランスクリプション）に対応しており、こちらを活用することで会議をほぼリアルタイムでキャプチャーし、発言者ごとに発言を記録することが可能になりました。

聴覚に問題があるユーザーがいるときや、雑音が多い環境などにおいて役立つ機能といえます。

音声認識で議事録を作成できるAI製品紹介

現在は、音声認識で議事録を作成できるAI製品が数多く存在しています。ここからは、中でも大きな注目を集めているAI製品を8つご紹介していきますので、ぜひ参考にしてみてください。

日立独自の音声認識技術を搭載した「Lumada」

■日立独自の音声認識技術を搭載した「Lumada」

（参照：音声デジタルソリューション｜Lumada：日立）

日立が開発・提供している音声デジタルソリューション「Lumada」では、音声データをリアルタイムに可視化することで、ナレッジシステムと連携して活用し、オペレーター業務を効率化へと導くことができます。日立では、顧客との通話音声を録音し、音声認識・分析していく環境の構築支援に加え、音声分析システム構築サービスを提供しているのが特徴です。

この音声分析システム構築サービスでは、これまでに日立が蓄積してきた音声認識データ分析のノウハウに基づき、コールセンターなどに蓄積される音声データから目的に適した情報を抽出し、マーケティング施策に繋げていくための効果検証を行います。そのため、議事録作成の品質向上といった名目でも価値を発揮するサービスといえるのではないでしょうか。

ディープラーニングで発話者も識別した発言録を自動作成「Zinrai」

■ディープラーニングで発話者も識別した発言録を自動作成「Zinrai」

（参照：デジタルワーク×AI – FUJITSU Human Centric AI Zinrai（ジンライ） : 富士通）

富士通が開発・提供しているAI技術「Zinrai」は、インフラ構築の効率化や、建物等の点検作業効率化など、さまざまなシーンで活躍しています。そんなZinraiは、デスクワークの効率化という目的でも活用されており、その代表的な活用例として挙げられるのが会議録作成や自動翻訳といった音声認識技術です。

たとえば、自動翻訳を行いたい場合、言語ごとに端末を用意することで、複数の言語でも問題なく相手の言語へとしっかり翻訳されます。通常、通訳を介してコミュニケーションを図る場合、こちら側の話が終わって相手に翻訳されなければ、相手からの返答は得られません。しかし、このシステムを活用すればリアルタイムで翻訳され続けるので、こちらの話が終わらなくても相手は返事を考え始めることができるのです。

また、議事録作成においては、富士通独自開発の専用エディターが用意されているため、音声認識したテキストをスムーズに編集することができます。議事録作成ツールを活用していても、編集機能が整っていないことが原因で、編集作業をスムーズに行えずにストレスを抱えてしまうというケースは少なくありません。その点、専用エディターによって手軽に編集できるという点は、大きなメリットといえるでしょう。

オンライン会議やインタビュー向けツール「AmiVoice ScribeAssist」

・AmiVoice ScribeAssist

（参照：AmiVoice® ScribeAssist｜製品情報｜音声認識の株式会社アドバンスト・メディア）

オンライン／オフラインといった会議形態、WEB会議システムの種類を問わず使用できる、音声認識の文字起こし支援アプリケーションです。リアルタイム音声認識・バッチ認識に対応しており、会議音声の録音、音声認識、テキスト変換・編集、文字起こし内容の出力までをワンストップで行うことができます。

また、専用サーバーが不要である点も魅力のひとつといえます。PC内の音声を収録する仕組みなので、面倒な開発や設定を行う必要がありません。各種Web会議システムから音声収録を行うことができます。

さらにスタンドアローン型のため、情報漏洩のリスクがなく、機密情報などを扱う会議でも安心してご利用することが可能です。2020年6月の発売以降、さまざまな企業・自治体（地方自治体）に正式導入されています。

高精度のAIエンジンによって議事録の自動要約が行える「QuickSummary」

株式会社エーアイスクエアが提供している「QuickSummary」という音声認識AIシステムでは、高精度のAIエンジンが搭載されているため、議事録や対話などの音声を自動で要約・分類することが可能です。そんな「QuickSummary」の主な機能としては以下のようなものが備わっています。

学習データメンテナンス機能

要約対象のセンテンスや、分類などの教師データを、管理画面からメンテナンスできる機能です。

対応分類機能

対応を自動で分類していく機能です。ユーザーが定義した複数の分類を同時に付与していくこともできます。

要約文の抽出機能

要約の上限文字数や上限発話数、センテンス重要度といった条件に沿って要約文を作成することができる機能です。

辞書登録機能

管理ツールから、重要なワードやNGワード、強制置換ワードなどを辞書に登録することができます。

重要キーワード機能

会話の全文から重要なキーワードを抽出していくことができる機能です。

ダッシュボード機能

キーワードクラウドや分類チャート、日別のコール数などを集計することによって、コールの全体的な傾向がどのようなものかチェックできる機能です。これらの機能が備わっている「QuickSummary」は、議事録はもちろんのこと、コールセンターでの活用も可能なため、議事録の音声認識以外でも活用していきたいと考えている企業にはとくにおすすめのAIシステムといえます。

QuickSummaryの詳細を見る

自動議事録作成サービス「AI議事録取れる君」

株式会社ALMが提供する「AI議事録取れる君」は、超高精度の人工知能(AI)を活用し、ZoomやTeamsでの会議内容を、リアルタイムで文字起こしする、議事録作成サービスです。

パソコンのマイクから入力した音声を即座に文字起こしを行い、前後の文脈からAIが修正・変換を行います。弊社独自のAIエンジンは日本語平仮名認識率が国内No.1です。編集・要約・自動録音機能など充実の機能自動録音・参加者による共同編集・要約（ブックマーク・ピン留め）などAI以外にも使いやすくする基本機能を備えています。

利用シーンとしては、オンラインミーティングや社内会議はもちろん、多言語ミーティング、対面での打ち合わせなど、幅広く活用可能です。幅広い活用シーンを想定している企業にとって、多くのメリットを得られるサービスといえます。

AI議事録取れる君の詳細を見る

パーソナライズド音声認識AI「Olaris」

Olarisは自然な会話を正確に文章に書き起こしてくれる、学習成長型の日本語音声認識AIです。個人単位で自由に認識結果を最適化させていくことができ、ユーザー側で認識精度をどんどん上げていくことが可能です。リアルタイムで怒りや嫌悪などの感情検知ができ、抑揚や話速などの付帯情報も取得することができます。

書き起こされたテキストはもちろん、話速や抑揚のような話し手の特徴、喋り始めや喋り終わりの検出ルールの調整、言いよどみのON/OFF、句読点のON/OFF、要約のON/OFFなど、APIリクエストの際に細かい設定が可能となります。また、データの再委託が厳しいケースでは、御社のAWS内に一式をセットアップして運用することも可能です。

さらに住所モデル、氏名モデル、数字モデル、医療モデル、生年月日モデル、予約日時モデル、個数モデル等々、特定の用途に合わせた専用モデルが予め準備されている点は大きな特徴といえるでしょう。必要なシーンに合わせて使い分けることで、さらに精度を高めることができます。

リアルタイムAI翻訳・AI字幕会議システム「Secure Meet」

チャットプラス株式会社が提供する「Secure Meet」は、AIチャットボットで世界をリードする「ChatPlus」が開発した、国産でセキュアなweb会議ツールです。利用するユーザーのレベルに合わせてセキュリティレベルをカスタマイズできるため、顧客のコミュニケーションを守ります。

セキュアミートは、もちろんChatPlusとシームレスに連携、他にも多くのツールと簡単に接続でき、ユーザーのWeb会議を加速します。スケジューリングや画面共有、サポート、面接まで、あらゆるコミュニケーションが統合され、定型業務が自動化されます。チャットプラスは、多くの企業で評価され、継続利用されている実績があるのも特徴の一つです。

また、インターネット経由でもオンプレでも、簡単に接続できる点も大きな特徴の一つです。デバイスを問わず、インストール要・不要も選択可能。オンプレでクローズネットワークに設置することもできます。チャットプラスは官公庁や世界中の大企業などに採用された実績をもとに、最も厳しいセキュリテイポリシーでも対応できるようにセキュアミートを設計しました。インフラ企業を含めて、他社への情報漏えいを心配する必要はありません。最先端のセキュリティ対策で、ユーザーの個人情報、情報資産、コミュニケーション資産を守ります。

官公庁向け音声認識「AmiVoice® VKG（アミボイスブイケージー）」

「AmiVoice VKG」は、官公庁などで働く職員をターゲットとした、キーボード入力の効率化を実現する音声認識ソフトです。先行リリースされた医療向けに次いで、一般向けとして官公庁向けの「AmiVoice® VKG」がリリースされたことで、大きな注目を集めました。

そんな「AmiVoice® VKG」には、複数の音声認識エンジンが搭載されています。そのため、適時・適所での活用によって利用の幅を大きく広げながら、一般文章、住所、長い数字列、変換が難しい英字・数字・記号、それらが混在した文章など、手間のかかるキーボード入力作業を効率化させることが可能です。

また、キーワードや音声コマンドを登録したり、音声認識エンジンのデータを蓄積させたりすることで、より入力効率を高めていくことができるのも特徴といえます。音声入力による効率化、自動化によって快適な作業環境が実現されるため、今後さらに官公庁での活用が広がっていくことが期待されています。

官公庁や自治体での音声認識AI活用事例

音声認識AIは、官公庁や自治体でも活用が広がっています。ここからは、実際に音声認識AIを活用している官公庁・自治体の事例をご紹介していきますので、ぜひ参考にしてみてください。

2011年から国会でも音声認識AIを活用

■2011年から国会でも音声認識AIを活用

衆議院では、2011年に京都大学の音声認識技術を導入し、約1年間の試行を経て本格導入に至っています。音声認識技術が導入されるまで、議会の会議録作成は、すべて手書き速記によって行われていました。しかし、21世紀に入り、衆参両院において速記者の新規採用と養成が停止されたことにより、音声認識AIの導入に向けた動きが加速したのです。

この音声認識システムでは、基本的にすべての本会議・委員会の審議において、発言者のマイクから収録される音声を、自動音声認識によって書き起こしていきます。ただし、音声認識には一定のミスが生まれることが想定されるため、話し言葉の発言を忠実に書き起こしても会議録にはなりません。つまり、速記者・校閲者の役割がなくなるわけではないということです。

今後、句読点や改行の精度向上（誤変換の減少）、専門用語への対応、そしてセキュリティ面の強化などによって、国会の議事録作成（書記）の役割にどのような変化が生まれていくのか、注目されていくと考えられます。

茨城県庁や滋賀県庁が議事録作成の音声認識サービスを導入

（参照：ホーム／茨城県）

音声認識技術のエキスパートである株式会社アドバンスド・メディアは、議事録作成のクラウドサービス「ProVoXT（プロボクスト）」を提供しています。

茨城県庁ではこのほど、この「ProVoXT」を採用し、会議の議事録作成の効率化を図ると明らかにしました。

自治体では、住民に公開するための議事録作成は大切な業務のひとつです。正確な内容を作成するために細心の注意が必要とされますが、専門の業者でない職員が手作業で入力しようとすると、かなりの作業時間を必要とします。その結果、職員の残業が増えたり、通常業務に支障をきたしたりといった問題がありました。重要な会議などは文字起こしの専門業者に委託することもありますが、費用がかかるというデメリットがあります。

「ProVoXT」はICレコーダーなどで録音した会議の音声をインターネット経由でアップロードすると、内容が文字化されるというサービスです。数時間の録音データも十数分で文字データに起こすことができます。そのため、人の手による議事録作成と比較すると、50％から70％の作業時間短縮につながるそうです。

また、アップロードした音声の認識結果は音声データと紐付けされているため、「AmiVoice Rewriter（アミボイスリライター）」というProVoXT専用の編集ソフトを使用することで、直感的に誤認識の修正（手直し）を行えます。

現在、茨城県庁では小さい会議も含むかなりの数の議事録を作成しているといいます。会議終了後の別業務に追われているというケースも多いでしょう。しかし、「ProVoXT」を活用すれば、会議の内容を短時間で確認することができ、作業時間も大幅に短縮されるので、職員は議事録作成に充てていた時間を他の業務に活用することが可能になります。また、大事な発言だけを抜粋したいというニーズにも対応でき、導入の成果を挙げているということです。

（参照：滋賀県｜滋賀県ホームページ）

このアドバンスド・メディアの議事録作成支援システムは滋賀県でも導入されています。滋賀県においても、議事録作成における「業務効率化」と「経費削減」は大きな課題となっていたことから、音声認識の導入に踏み切りました。従来の人の手による文字起こし作業と比べて、2～3倍の速さでテキスト化が可能になったといいます。また、滋賀県庁で過去に行われた会議の議事録をもとに専用辞書も搭載しているため、独特の言い回しや用語なども認識・変換が可能になっています。

さらに、アドバンスド・メディアの議事録作成支援システムは全庁的に利用可能であり、Webインターフェイスが採用されています。これにより、音声のアップロードや認識結果の確認、ダウンロードなどの作業をすべて自席で行うことができるのです。わざわざ席を離れる必要がないという点も、業務効率化につながる大きなポイントといえるのではないでしょうか。

ただし、音声認識精度は録音状態に左右されてしまうため、マイクの整備など録音機能を高めるための環境整備が必要とされています。

（参照：IT Leaders　茨城県庁、音声認識で議事録を自動作成するクラウドサービス「ProVoXT」を全庁で導入）
（参照：IT Leaders　音声認識で議事録作成を半自動化するソフト、アドバンスト・メディアが販売）
（参照：IT Leaders　滋賀県庁、音声認識で議事録の作成を半自動化、手作業の2～3倍の速さでテキスト化）

AmiVoiceの詳細を見る

東京都港区や徳島県も議事録作成に音声認識を活用

先に紹介した都道府県意外にも、議事録作成に音声認識を活用している自治体は存在します。たとえば東京都港区では、2018年よりアドバンスト・メディアが提供する「AmiVoice 議事録作成支援システム」を本格運用し始めました。議事録作成の業務効率化と経費削減は大きな課題となっていたことから、このシステムの運用が決まったといいます。

また、徳島県では、知事の定例会見の議事録作成に音声認識が活用されています。AIがテキスト化と要約を行い公開するというシステムを採用しており、これにより議事録作成にかかる時間が5分の1程度に減少したそうです。これまでは複数の職員が会見内容を文字に起こし、3〜4日後に公開されていましたが、音声認識の導入によって瞬時に公開できるようになったといいます。