DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
お急ぎの方は、まずお電話で 03-6452-4750
MAIL
お急ぎの方は、まずお電話で 03-6452-4750 10:00〜18:00 年末年始除く

AIの精度向上に欠かせない教師データの作成方法とは?

最終更新日:2022/03/14

近年は多くの企業で人手不足が深刻な課題となっており、その課題を解決するための手段としてAIを導入する企業も多くなってきています。とはいえ、AIはさまざまな用途で活用することができるため、どのような用途でAIを活用するのか明確にしなければ、AIを有効活用できずに失敗してしまう可能性も否めません。

また、AIは日々の学習によって精度を向上していくものでもあるため、その精度を高めるための「教師データ」にもしっかりと目を向けることが大切になります。今回は、AIの精度を高める上で欠かせない教師データについてご紹介していくとともに、具体的な作成方法についても解説していきますので、ぜひ参考にしてみてください。

■そもそも「教師データ」って何?

■そもそも「教師データ」って何?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

これまでAIを導入したことがない企業の担当者や、これからAIを導入しようか悩んでいる担当者の中には、「AIという言葉の意味自体は何となく理解できているものの、具体的には分からない」という方も多いのではないでしょうか。AIを理解する上で、教師データは極めて重要なものであるため、まずは教師データの基礎的な部分からご紹介していきます。

AIには、機械学習という要素技術が存在します。その機械学習は、データの種類や状況などに応じて「教師あり学習」「教師なし学習」「強化学習」という3つに分けることができ、教師データは「教師あり学習」において必要となるデータとなるわけです。

教師あり学習とは、その名の通り、教師となるデータをもとに学習していくものであり、不明なデータを持ち寄った場合には正解を教えてくれるというイメージで問題ありません。そのため、正解となるデータを大量に学習していくことで、新しいデータにも対応することができるようになるのです。

そんな教師あり学習は、「学習」「認識・予測」という2つのプロセスによって成り立っています。1つ目のプロセスである「学習」では、正解のデータを用いてルールやパターンの学習を行っていくわけです。そして2つ目のプロセスである「認識・予測」では、新しくインプットされた「まだ正解がわからないデータ」に対して、これまでに学習したデータを用いて認識・予測を行っていきます。

なお、「教師なし学習」に関しては、その名の通り教師データが必要ありません。教師なし学習は、膨大なデータの学習を行うわけではなく、データそのものが持っている構造や特徴の分析を行っていくため、グループ分けやデータ簡略化といった作業がメインになります。

そして「強化学習」は、AIが報酬の獲得を求めて能動的に学んでいく機械学習モデルのことです。その一例としては、試行錯誤を繰り返し、膨らんだ利益を獲得する方法などが挙げられるでしょう。そのため、株取引などの分野で活躍するケースが多い傾向にあり、異常検知ではあまり用いられることがありません。

■機械学習にはどれくらいの教師データが必要なのか?

■機械学習にはどれくらいの教師データが必要なのか?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

機械学習を行うためには教師データが必要であることがお分かりいただけたかと思いますが、具体的にどれくらいの教師データを用意する必要があるのでしょうか。

機械学習において必要となる教師データの数は、AIの用途によっても大きく変化するため、一概には言えないというのが実際のところです。そのため現状では、必要だと予測される教師データの数を人間が推測しなければなりません。

銀行の融資の審査を行うためのAIを構築していく場合であれば、「1万人の過去の融資審査データが用意できていれば精度を十分高められるだろう」「100人の融資審査データを用意しただけでは少ないだろう」といったように、あらかじめ予測した上でデータを用意する必要があるということです。

ただし、AIを構築するにあたり、必ずしも教師データの数は多くなければならないというわけではありません。運用を開始した後に収集したデータを活用して学習していくこともできるからです。そのため、教師データが少ない状態でもAIの運用を開始すること自体は可能といえます。

■教師データの作成方法(集め方)

■教師データの作成方法(集め方)|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

教師データを大量に用意しなくても、AIの運用を開始すること自体は可能であることがお分かりいただけたかと思います。では、肝心の教師データはどのような方法で収集すれば良いのでしょうか。教師データの集め方は、AIの用途によって方法が異なりますので、それぞれ詳しくみていきましょう。

・社内に蓄積されたデータを活用する

社内には顧客データや売り上げデータ、文書データ、機械のセンサデータなど、さまざまなデータが蓄積されています。それらを活用してAIに学習させることで、より業務効率化を推進することができるでしょう。

たとえば、クレジットカードの審査の場合、過去の数千人分のデータと審査結果の正解ラベルを用意することによって、「クレジットカードを発行できるかどうか」の判別を自動化させることができるわけです。

・動画から画像データを収集する

画像データを必要とするAIを構築する場合には、動画から画像データを集める方法が有効です。そもそも動画は、画像データをパラパラ漫画のように連続で表示させてアニメーションにしたものであるため、フレームレートが30fpsの30分の動画からは5万4,000枚の画像データが収集できます。

ちなみに、動画から画像データを収集することで機械学習に活かした事例のひとつに、「Googleのネコ」というものが挙げられます。これはGoogleが行った実験のひとつで、1週間コンピューターにYouTubeを見せ続け、そのコンピューターに猫の写真を判別できるよう学習させたというものです。

一般的な機械学習の場合、事前に「猫」というラベル付けを行った画像を学習させるわけですが、この実験ではコンピューター自身がYouTubeの映像から「猫がどのようなものなのか」を学んでいきました。一見、動画を見せ続けていただけですが、その動画から大量の画像データを学習していたのです。

・データセットやコーパスを購入する

専門知識を持つ担当者が存在しない場合には、社内で教師データを作成していくのが難しいケースもあるでしょう。教師データ作成は、AI開発における最大の関門と言っても過言ではないほどハードルが高く、多くの時間を費やさなくてはなりません。そのため、無理に教師データ作成を自社で進めようとしてしまうと、大幅な時間ロスが生じてしまう可能性もあるのです。

そのため、できるだけ効率的に教師データ作成を進めていくために、データセットやコーパスを購入するというのも一つの手段です。教師データの販売を行っている企業や、教師データの作成代行を行っている企業に依頼することで、大幅な効率化を実現できます。

もちろん、それらの企業に依頼すれば別途費用が発生しますが、慣れていない作業に膨大な時間を費やしてしまうデメリットと比較すれば、決して無駄なコストではないといえるでしょう。

AIsmileyでは、教師データ作成サービスの利用料金・初期費用・無料プラン・トライアルの有無などを比較検討することができる資料を無料でお配りしています。より最適なサービスの選定にご活用いただけますので、教師データ作成を検討される際はぜひお気軽にご利用ください。

教師データ・アノテーションの作成代行サービスを見る

■教師データを集める時の注意点

●データの質は適当か

AIの精度を向上させる上で、教師データの収集は欠かせません。AIが分析・予測を行うためには、正解となるデータが必要になるからです。そのため、教師データが多くなるほど、AIの精度も向上していくと考えられています。

しかし、データの量だけが多ければ良いというわけでもありません。教師データをもとに学習を行っていく以上、正解となるデータの質が悪ければ学習精度も低下してしまうからです。AIの学習には多くの時間を要するため、質の低いデータを用いてしまうと、その学習時間がすべて無駄になってしまう可能性も否めません。

たとえば外観検査の画像の場合、撮影方法によって精度に差が生まれやすくなります。顔認証の場合、欧米人ばかりでは日本人の認証精度が高まりにくいでしょう。こういった時間のロスを減らすためにも、正解となるデータの質にはこだわる必要があります。

●データの量は足りているか

AIの精度を高めるためには、データの量を増やすことも大切になります。その際、必要となるのが訓練データとテストデータの2つです。手持ちのデータをすべて学習用データとして使用すると、過度に適合したモデルが出来上がってしまい、逆に精度が低下してしまうことも少なくありません。

こういった「過学習」と呼ばれる減少を避けるためにも、訓練データとテストデータに分けることが重要です。なお、訓練データと学習データの分割方法にはいくつかの手法があります。

その中でも代表的な手法として挙げられるのが、ホールドアウト法です。ホールドアウト法とは、データを「学習用データ」と「テストデータ」に分割して、モデルの精度を確かめていく手法のことをいいます。たとえば、データ全体が100個とした場合には、6対4の割合で分割し、学習用データ60個、テストデータ40個に分割していくわけです。

また、K-分割交差検証と呼ばれる手法も多く用いられます。Cross Validation(クロスバリデーション法)と呼ばれることもある手法であり、データ全体をK個に分割した上で、そのうちのひとつをテストデータとし、残った K-1 個を訓練用データに分解していくというものです。

そして、テストデータと学習用データの入れ替えを行いながら繰り返し、すべてのケースがテスト事例となるまで検証を行っていきます。つまり、K 個に分割されたデータは、K 回の検証が行われることになるということです。

●著作権の確認

教師データの作成を行うためには、大量の生データや生データをもとに生成した学習用データセットが必要です。その際に、文章や画像、動画といった著作物(生データ)を利用することもあるでしょう。
著作権法上、著作権者の許可なく無断で著作物を利用(ダウンロードや改変等)することはできません。ただし、現在の著作権法には第三十条の四が存在するため、AIの開発を目的とした場合であれば、一定限度で著作権者の許諾なく著作物を利用することができます。著作権法における「第三十条の四」の条文は、以下の通りです。

(参考)著作権法 第三十条の四
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りではない。

・AIによる創作物の著作権はどこにある?

ちなみに、AIにおける著作権の問題は、教師データの作成時だけに関わるものではありません。AIによる創作物の著作権についても、多くの議論が交わされています。
米IT大手のマイクロソフトとオランダの金融機関 ING グループ、レンブラント博物館、デルフト工科大学などは2016年、AIを使ってバロック時代の有名画家レンブラントの「新作」を発表し、大きな話題を呼びました。レンブラントの全作品を分析し、タッチや筆遣い、レイアウトの特徴、絵の断面の凹凸や絵の具の厚みまで、詳細にAIに記録させたのです。

そうした分析の中、もっともレンブラントらしく見えるモチーフとして選ばれたのは人物画です。大きな襟のついた服を着た白人の中年男性。レンブラントの画風を再現すべく、人物の顔パーツの比率も分析しました。コンピューターが500時間かけて描き上げた肖像画は、レンブラント本人が描いたと言われても信じてしまいそうなほど、緻密で完成度の高いものでした。

しかし、この絵画は、いくらレンブラントの画風にそっくりと言っても作者は「コンピューター」なのです。現行の法律上、著作物とは「思想・感情を創作的に表現したもの」とされているため、自ら思考や感情を持たないAIによる創作物に著作権は発生しないという風にも考えられます。ただ、AIが創作した成果物に対する著作権については、現状さまざまな議論が交わされています。

AIが人間の知能を凌駕する「シンギュラリティ」の到来についてもさまざまな見方がありますが、AIが人間を超える知能を持ち、自ら思考力や感情を獲得することがあれば、AIの創作物にも著作権が発生するのかもしれません。

●プライバシーへの配慮とGDPR対応

教師データを集める上では、プライバシーへの配慮も必要です。特に、画像データや動画データを扱う際には、本人が気付かぬうちにパーソナルデータを収集してしまうというプライバシー侵害のリスクもあるため、注意する必要があります。

より大量の教師データを収集したほうが高精度のAIを構築できるわけですが、ただ大量に教師データを集めれば良いというわけではありません。場合によっては、プライバシー侵害に該当してしまうケースもあるため、注意しながら進めていく必要があるでしょう。

最近では、2018年5月にGDPR(一般データ保護規則)が施行されるなど、「データの主体である個人がデータ管理者に対して自身のパーソナルデータの訂正・削除・移動を求める権利」が保障され始めています。だからこそ、細心の注意を払いながら、教師データ作成を進めていくことが大切です。必要に応じて、専門知識を持つ企業のサポートを受けるのも一つの手段といえるでしょう。

■教師データの作成を代行するサービスも増加中

今回は、精度の高いAIを構築する上で重要な役割を果たしている教師データについてご紹介しました。教師データの収集に難しさを感じられた方もいらっしゃるかもしれませんが、最近では教師データの作成を代行してくれるサービスなども増えてきています。より効率的にAIを構築していきたい場合には、こういったサービスの利用を検討してみても良いかもしれません。

もちろん、社内に蓄積されたデータを活用するのも有効な手段のひとつですが、蓄積されたデータはその企業にとって極めて大切な財産です。情報が漏洩してしまわないように、十分な注意を払ってデータを扱うようにしましょう。

また、機械学習モデルを作成する上で欠かせない「アノテーション」について詳しくご紹介していますので、ぜひ下記ページも一緒にご覧ください。

教師データ・アノテーションの作成代行サービスを見る

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Twitterもフォローください
@AIsmiley_inc

今注目のカテゴリー

チャットボット

画像認識・画像解析

需要予測

OCR・文字認識

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら