生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2024/02/07
コーパスのAIへの活用
近年急速に進化を遂げているAI(人工知能)は、言語分野でも幅広く導入されています。言語分野での活用において重要な要素の1つが「コーパス」です。
本記事では、コーパスの意味やメリット、種類といった基本知識から、AI技術への活用まで解説します。今後さらに必要性が高まっていくとされる自然言語処理との関係性や、効果的な応用方法についても紹介するので、AI翻訳など言語分野にてコーパスの応用を検討するためにお役立てください。
自然言語処理について詳しく知りたい方はこちらの記事もご覧ください。
自然言語処理(NLP)とは!?AIの進化で活用広がる最新技術を紹介

「コーパス(Corpus)」とは、自然言語の文章や使い方を大規模に収集し、コンピュータで検索できるよう整理されたデータベースのことです。日本語では「言語全集」などとも呼ばれます。
AIが自然言語を扱うためには、膨大な量のデータ学習が必要です。人間が外国語を学ぶときと同じように、AIにも単語の意味や文法上の扱い、用例などを記した辞書のようなデータベースが欠かせません。
コーパスでは、新聞や雑誌、本で使われる文章や、文字化した話し言葉、インターネット上のテキストなどの自然言語を大量に集め、構造化しています。辞書を引きながら外国語を読むように、AIはコーパスを参照しながら構造化されていない文章を読むことが可能です。
実際のコーパスは言語研究の領域などでも活用されており、バランスよく収集された多種多様な言語が採用されています。
コーパスの最大の役割は、自然な言語表現を理解することにあります。コーパスを活用することで、AIが扱える言語をネイティブが使うような自然体に近づけることが可能です。ここでは、コーパスによる代表的な2つのメリットについて解説します。
コーパスでは、単語の使用頻度が数字で表示されるため、よく使う単語を知ることが可能です。一般的な表現を使いこなすためには、ネイティブがよく使う単語や表現を知る必要があります。同じような意味を持つ複数の単語や表現をコーパスで検索すれば、使用頻度が高い表現がわかるでしょう。
例えば、「ランチ」と「昼ご飯」は同じような意味で使われます。コーパス「少納言」での検索頻度を見ると、「ランチ」は2,776件、「昼ご飯」は12,065件と大きく異なり、昼ご飯の方がよく使われていることがわかるでしょう。
コーパスを利用することで、言葉の使い分けや言い回しが適切であるか確認できます。人間が自然だと感じる文章を作成するためには、微妙なニュアンスの違いや言い回しの使い分けの知識が必須です。
母国語以外の言語を翻訳などにおいて特に重要であるポイントを、コーパスを使うことでスムーズにクリアできるでしょう。例えば「料理する」と「料理をする」は同じ意味ですが、107件と66件という検索結果が得られ、「料理する」の方が一般的な言い回しであるといえます。

コーパスには使用用途や言語の数などによって、いくつかの種類に分けられます。また、無料と有料など利用条件もさまざまです。ここでは、4つのコーパスについて特徴や代表例を紹介します。
日本語コーパスは、日本語の単語や文法、言い回しについて構造化されたデータベースです。
代表例としては、国立国語研究所が中心になって構築した大規模コーパスの「現代日本語書き言葉均衡コーパス(BCCWJ)」が挙げられます。
現代日本語書き言葉均衡コーパスは、現代日本語の書き言葉を把握するために約1億語を収録したデータベースです。無償オンライン版の「KOTONOHA Corpus(登録不要)」と「中納言(要登録)」、そして有償オンライン版の3タイプが利用できます。
英語コーパスは、英語のデータベースで、イギリスやアメリカを含む世界中で多く活用されています。インターネット上で無料公開されているものも少なくありません。
知名度の高い英語コーパスの1つである「BNC Simple Search」は、約1億語のイギリス英語が収録されています。1回で検索できる結果は50例までという制限があるものの、ネットワーク接続があれば世界中どこからでも利用可能です。
また、「The Corpus of Contemporary American English(COCA)」は、アメリカの小説や新聞、雑誌、ラジオなどで使われている単語を集めて作られています。「小学館コーパスネットワーク」は有料ですが、日本語を使って世界中の英語コーパスを検索することが可能です。
教育用例文コーパスの「SCoRE(Sentence Corpus of Remedial English)」は、自然な英文とその日本語対訳をオンライン上で無料かつ登録不要で閲覧、検索できます。
学習者コーパスとは、該当する言語を習得しようと学習している人向けのコーパスで、用途が限定されているものもある点に注意が必要です。日本語用としては、研究・教育用途に利用できる「日本語学習者作文コーパス」があります。
「中国語・韓国語母語の日本語学習者縦断発話コーパス(略称C-JAS)」といったような、対象の母国語を持つ人が日本語を学ぶ際に活用できるコーパスも少なくありません。「JEFLL学習者コーパス(Japanese English as a Foreign Language Learners)」は、日本人の英語学習者である中学生や高校生の作文データを、コーパスとして作成したものです。
検索エンジンコーパスとは、検索エンジンをコーパスとして活用する方法です。検索窓に文章を入力し、検索結果を習得します。検索する際には、検索したい単語や文章は「””」で囲む必要がある点に注意が必要です。
コーパスは、自然言語処理と呼ばれる技術と深く関係しています。AI翻訳などにコーパスを用いる上で、自然言語処理についての理解も必須です。ここでは、自然言語処理の概要と、コーパスの役割について解説します。自然言語処理とは
自然言語処理(Natural Language Processing/NLP)とは、人間が扱う自然言語を機械が処理し、内容を抽出することです。コミュニケーションで使う話し言葉や、論文などの書き言葉などの自然言語を対象とし、言葉の意味をさまざまな手法で解析する技術を指します。
自然言語処理では、文章の構造や全体像を表す「形態素解析」や、単語をつなぎあわせる「構文解析」、フレーズの相対関係を示す「意味解析」、最終調整を行う「文脈解析」といった各プロセスを経て、自然言語の文章を作成する流れです。また、工程の前準備として、機械可読目録とコーパスが必要になります。
日常的に使用する自然言語は、同じフレーズや単語でも文脈によっては解釈が変わる場合があるなど、言葉の曖昧さや意味の重複が含まれています。こうしたイレギュラーさを機械が自動処理することは難しく、技術的な課題は多いですが、今後の進化・発展が期待できるでしょう。
コンピュータが自然言語処理を行うにあたって、自然言語の文章を構造化し集積したコーパスは重要な役割を果たします。コーパスというデータベースを使うことで、コンピュータが状況に適した言葉の意味や使い方を理解し、自然体の文章を作成するという自然言語処理が可能です。
AIの進化などコンピュータ自体の処理性能やデータ容量が増大している近年、大規模なコーパスを利用して、より適切な言語処理が実現しています。

ここからは、自然言語処理の活用事例を見ていきましょう。自然言語処理は、機械翻訳やチャットボットなど幅広いシーンですでに活用されています。自社に適した活用方法を考える上で役立つ事例を紹介しますので、ぜひ参考にしてください。
Google翻訳をはじめ、多くの機械翻訳サービスで自然言語処理が採用されています。従来は直訳に近い処理結果しか得られず、ネイティブスピーカーにとっては違和感のある翻訳も少なくありませんでした。
しかし、AI技術の導入などに伴い、ここ数年で翻訳精度が急速に向上しており、より一般的な表現の近い言い回しに置き換えられています。これは、適切な文脈や意味の解釈ができる自然言語処理の活躍の結果です。
代表的なサービスに「DeepL翻訳」があります。DeepL翻訳は、ディープラーニングをベースとした言語用AIシステムの開発を手掛けるドイツ企業が提供する機械翻訳サービスです。2003年に日本語対応が始まると、それまでの翻訳ツールよりも高精度な翻訳文の生成が実現することでネット上でも話題となりました。
自然言語処理を活用し、文章の生成や要約も行われています。抽出的要約や生成的要約といったアルゴリズムを用いて、AIが文章の内容を理解し、自動で文章を作成、要約するシステムです。
抽出的要約とは、文章の主要な単語や文章を抽出し要約を作成するアルゴリズムで、現在の自動要約における主流な手法として使われています。ただ、こそあど言葉などの指示語や文脈の説明が不足する場合がある点が課題でした。
そこで、生成的要約を組み合わせ、内容を的確に反映するために言い換えや短い表現を適度に用いることで、より自然に感じる文章の生成を実現しています。
最近では、AI文章生成サービス「AIのべりすと」を使った文学作品を審査するコンテストが開催され、応募数は389点にも上りました。自然文章作成や可能なAIと、人間の共同執筆による創作活動は、今後より浸透していくことでしょう。
「AIのべりすと」の詳細やコンテストの受賞作品など、詳細は下記記事をご覧ください。
チャットボットや音声対話システムも、自然言語処理によるサービスです。チャットボットは、打ち込んだ文章の文脈や言葉の意味を的確に理解し、適切な回答を文章化します。日本語の場合、主語が抜けると意味合いが大きく変わることが多い傾向があり、直前に出てきた主語を記録して、その後のやり取りに活かすよう配慮されていることも特徴的でしょう。
また、音声対話システムは音声を聞き取って理解し、適切な対応を返すシステムです。代表例には「Siri」や「Googleアシスタント」などのAIアシスタントサービスや、「Amazon Echo」などがあります。
「CLOVA Speech」は、日本語や韓国語といった言語の音声認識サービスです。リアルタイム解析に特化したモデルで、外出時などノイズが含まれる環境下でも音声を的確に認識し、文字に変換できます。
音声のテキスト化ツールを含め、機能別にツールやサービスを紹介している下記記事もあわせてご覧ください。
テキストマイニング(Text Mining)とは、記述された文章を分析する手法の1つです。統計学やAIのデータ解析技術を用いて膨大な量の文章データを解析し、規則性のある情報を取り出す技術を指します。また、AIの肝とも言えるビッグデータの活用においても重要な技術です。
近年は、コールセンターでのやり取りの記録やWebアンケートの自由記述文といったデータの他、インターネット掲示板やSNSの投稿にも採用されています。マーケティングや商品開発といった目的で、ユーザーの生の声を適切かつ効率的に集約し、企業活動に反映させることが可能です。
検索エンジンも、自然言語処理技術の代表的な事例です。世界的な検索エンジンであるGoogleが開発した「BERT」は、AIによる自然言語処理を活用し、会話型式や複雑なクエリにおいても文脈を読み、高精度な検索結果を表示します。
また、BERTは少ないデータ量で幅広いタスクに応用できる柔軟性を備えており、感情分析への応用も可能です。一方で、偏見なども一緒くたに学習してしまうといった課題がありますが、さらなる研究開発と改良によって深いレベルで使用されることが期待できるでしょう。
近年では、よりレベルアップした自然言語処理アルゴリズムとして、Googleは「MUM(Multitask United Model)」を発表しました。BERTの約1,000倍以上もの性能を備えるとされるMUMは、マルチタスクが可能な上、動画や音声入力への対応も可能。Google検索エンジンをはじめ、将来幅広い製品に搭載される計画があります。

コーパスは、AIの自然言語処理技術にとって重要な要素です。人間が使う書き言葉や話し言葉に含まれる曖昧さや文脈、背景などを的確に読み取り、最適な回答を返すためには、高精度なコーパスが欠かせません。
機械翻訳やチャットボット、検索エンジンなどですでに応用されている自然言語処理技術は、今後より幅広い用途で活躍することが予測されており、コーパスの必要性も高まっています。自社に最適なAIサービスに向けたコーパスを作成したい方は、AIsmileyにご相談ください。
AIソリューションについて詳しく知りたい方はこちらの記事もご覧ください。
AIソリューションの種類と事例を一覧に比較・紹介!
AIについて詳しく知りたい方はこちらの記事もご覧ください。
AI・人工知能とは?定義・歴史・種類・仕組みから事例まで徹底解説
「コーパス(Corpus)」とは、自然言語の文章や使い方を大規模に収集し、コンピュータで検索できるよう整理されたデータベースのことです。日本語では「言語全集」などとも呼ばれます。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら