教師データ作成サービスを円滑に導入するためには、データ収集とアノテーションの作業が必要です。教師データ作成では、まず素材となるデータを収集します。収集する対象のデータは、画像・動画・音声・テキストなど多岐に渡ります。質の高いデータを大量に用意するようにしましょう。
次に、そのデータに適切な情報を付加する作業が必要です。この作業はアノテーションと呼ばれ、AIの精度を左右する重要な作業です。
アノテーションの要件を明確にするためには、アノテーションの種類・対象物・作業のルールを検討しなければなりません。ここからは、アノテーションの種類や教師データの種類などをご紹介していきます。
画像アノテーションの種類
画像アノテーションの種類としては、主に以下の5つが挙げられます。
・物体検出(バウンディングボックス)
画像・動画の中に映っているものを検出し、言葉に意味を付けていくという手法です。
・領域抽出(セグメンテーション)
特定の領域を選択して、タグ付けを行っていく作業のことです。
・多角形での領域指定(ポリゴンセグメンテーション)
画像・映像に映った物体の領域を多角形で囲っていくアノテーション手法のことです。
・目印の検出(ランドマークアノテーション)
顔認識において多く利用されるアノテーション手法です。顔の表情から感情を読み取るAIなどで多く用いられます。
・画像分類
1枚の画像にタグ付けを行っていくシンプルな手法です。
教師データの種類
AIには、機械学習という要素技術が存在します。その機械学習は、データの種類や状況などに応じて「教師あり学習」「教師なし学習」「強化学習」という3つに分けることができ、教師データは「教師あり学習」において必要となるデータとなるわけです。
教師あり学習とは、その名の通り、教師となるデータをもとに学習していくものであり、不明なデータを持ち寄った場合には正解を教えてくれるというイメージで問題ありません。そのため、正解となるデータを大量に学習していくことで、新しいデータにも対応することができるようになるのです。
そんな教師あり学習は、「学習」「認識・予測」という2つのプロセスによって成り立っています。1つ目のプロセスである「学習」では、正解のデータを用いてルールやパターンの学習を行っていくわけです。そして2つ目のプロセスである「認識・予測」では、新しくインプットされた「まだ正解がわからないデータ」に対して、これまでに学習したデータを用いて認識・予測を行っていきます。
では、教師データ作成サービスを導入する場合、どのような点に着目して選んでいけば良いのでしょうか。ここからは、教師データ作成サービスの選び方についてご紹介していきます。
作業ルールを統一する
教師データの品質を保つために「作業ルール」は統一しましょう。作業ルールがアノテーターごと異なっていると、データの品質にばらつきがでてしまいます。作業ルールの統一化を図る方法には、ガイドラインの作成があります。
ガイドラインには、作業ルールや作業時の注意点を取り纏めるようにしましょう。また、作成したガイドラインは、チーム全員で共有しておくことも重要です。
ガイドラインを自社で作成しサービス提供会社に支給するのか、ガイドラインの作成も含めて依頼するのか、自社の知見や予算に合わせて判断すると良いでしょう。
データの収集方法を検討する
まずは、データをどのような方法で収集するか検討していきます。代表的な方法としては、以下のようなものが挙げられるでしょう。
・社内に蓄積されたデータを活用する
社内には顧客データや売り上げデータ、文書データ、機械のセンサデータなど、さまざまなデータが蓄積されています。それらを活用してAIに学習させることで、より業務効率化を推進することができるでしょう。
・動画から画像データを収集する
画像データを必要とするAIを構築する場合には、動画から画像データを集める方法が有効です。そもそも動画は、画像データをパラパラ漫画のように連続で表示させてアニメーションにしたものであるため、フレームレートが30fpsの30分の動画からは約5万4,000枚の画像データが収集できます。
・データセットやコーパスを購入する
専門知識を持つ担当者が存在しない場合には、社内で教師データを作成していくのが難しいケースもあるでしょう。教師データ作成は、AI開発における最大の関門と言っても過言ではないほどハードルが高く、多くの時間を費やさなくてはなりません。無理に教師データ作成を自社で進めようとしてしまうと、大幅な時間ロスが生じてしまう可能性もあるのです。
そのため、できるだけ効率的に教師データ作成を進めていくために、データセットやコーパスを購入するというのも一つの手段です。
データの収集量を定める
AIの精度を向上させる上で、教師データの収集は欠かせません。AIが分析・予測を行うためには、正解となるデータが必要になるからです。そのため、教師データが多くなるほど、AIの精度も向上していくと考えられています。
しかし、データの量だけが多ければ良いというわけでもありません。教師データをもとに学習を行っていく以上、正解となるデータの質が悪ければ学習精度も低下してしまうからです。AIの学習には多くの時間を要するため、質の低いデータを用いてしまうと、その学習時間がすべて無駄になってしまう可能性も否めません。
そこで必要となるのが、訓練データとテストデータの2つです。手持ちのデータをすべて学習用データとして使用すると、過度に適合したモデルが出来上がってしまい、逆に精度が低下してしまうことも少なくありません。こういった「過学習」と呼ばれる減少を避けるためにも、訓練データとテストデータに分けることが重要です。
サービス導入の費用感を知る
サービスを検討する際に気になるのが費用です。一般的に、教師データ作成サービス費用の内訳は「業務委託費」「品質管理費」「プロジェクト管理」に分けられます。ここでは、それぞれの内訳について説明します。
・業務委託費
業務委託費の大半を占めるのが、教師データ作成にかかる人件費です。業務委託費は、対象データの種類やアノテーションの要件によって変動します。また会社によって料金設定も異なるため、複数の会社を比較・検討し相場を把握することをおすすめします。
また依頼する量が多い場合は「ボリュームディスカウント」が適用される会社もありますので、併せて確認すると良いでしょう。
・品質管理費
教師データの作成には膨大な量のアノテーションが必要になるため、アノテーション業務の品質を一定水準に保てるよう品質管理を行うことが重要です。品質管理の方法は、主に以下の3つに分けられます。
予算との兼ね合いも大切ですが、教師データの品質が一定水準に満たないとAIの精度が上がらないことも考慮しなければいけません。価格の安さのみに注目せず、品質も考慮した上で自社に合った管理方法を選択すると良いでしょう。
・プロジェクト管理費
プロジェクト管理費には、プロジェクトの進捗管理や人材管理が含まれます。プロジェクト管理を自社で行える場合は、内製化することで予算を抑えることができます。自社内にプロジェクトを管理するノウハウやリソースがない場合は、外部に任せることも検討しましょう。
プロジェクトの管理では、自社内のリソース状況に応じて依頼範囲を見極めることが重要です。
以上のように、教師データ作成サービス費用は「何を依頼するのか」「どこまでの範囲を依頼するのか」などの条件により変動します。自社で担当する範囲と依頼する範囲を検討し、複数の会社を比較することが大切です。
セキュリティ対策の確認
教師データの作成のために使用するデータは、個人情報が含まれることも多いためセキュリティ対策をしっかり行う必要があります。
教師データ作成サービスの中には、クラウドワーカーやオフショアを利用している会社も少なくありません。クラウドワーカーやオフショアを利用しているサービスの場合は、「どのようなセキュリティ対策をしているのか」「情報漏えいへの対策がきちんと施されているか」など、提携している個人や委託先からを確認しておくと良いでしょう。
※クラウドワーカーとは…業務の発注者と受注者を仲介するサービス「クラウドソーシング」を用いて働く人のこと
※オフショアとは…海外の提携先に業務を委託すること
著作権の確認
教師データの作成を行うためには、大量の生データや生データをもとに生成した学習用データセットが必要です。その際に、文章や画像、動画といった著作物(生データ)を利用することもあるでしょう。
著作権法上、著作権者の許可なく無断で著作物を利用(ダウンロードや改変等)することはできません。ただし、現在の著作権法には第三十条の四が存在するため、AIの開発を目的とした場合であれば、一定限度で著作権者の許諾なく著作物を利用することができます。著作権法における「第三十条の四」の条文は、以下の通りです。
(参考)著作権法 第三十条の四
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りではない。
また、教師データを集める上では、プライバシーへの配慮も必要です。特に、画像データや動画データを扱う際には、本人が気付かぬうちにパーソナルデータを収集してしまうというプライバシー侵害のリスクもあるため、注意する必要があります。
より大量の教師データを収集したほうが高精度のAIを構築できるわけですが、ただ大量に教師データを集めれば良いというわけではありません。場合によっては、プライバシー侵害に該当してしまうケースもあるため、注意しながら進めていく必要があるでしょう。
ここまでにご紹介した条件を照らし合わせながらサービスを選定すると、教師データ作成サービスの導入に失敗するリスクを抑えることが可能になります。なお、アイスマイリーでは、教師データ作成サービスの選定に役立つDX雑誌やサービス比較表なども無料でお配りしていますので、ぜひこちらも併せて参考にしてみてください。
DX雑誌「AI教師データ作成のキーポイント」
アイスマイリーでは、AIを開発する際に必要不可欠なアノテーションの事例やユースケースを紹介したDX雑誌「AI教師データ作成のキーポイント」を無料で配布しています。
本資料では、実績のあるAI企業5社が画像データのアノテーションをメインにアノテーション作業のコツを踏まえながら事例やユースケースを紹介していきます。
AIデータ作成を検討される際には、ぜひこちらのDX雑誌「AI教師データ作成のキーポイント」をご活用ください。
DX雑誌「AI教師データ作成のキーポイント」をダウンロードされたい方は[DX雑誌「AI教師データ作成のキーポイント」を無料でダウンロードする]ボタンより無料でダウンロードできます。
お問い合わせ内容欄に「AI教師データ作成のキーポイント」と記載の上、送信してください。
DX雑誌「AI教師データ作成のキーポイント」を無料でダウンロードする
数ある「教師データ作成サービス」の中から、自社の課題や導入の目的にあった「教師データ作成サービス」を選び出すのは容易ではありません。そんな時に役立つのが、サービスの種類別にセグメントされた教師データ作成サービスAIカオスマップです。
この便利なカオスマップを含む教師データ作成サービス比較表と掲載サービス7選は、以下の「教師データ作成サービス比較表と掲載サービス7選を無料でダウンロードする」ボタンより無料でダウンロードできます。
教師データ作成サービス比較表と掲載サービス7選を無料でダウンロードする
教師データ作成サービスを円滑に導入するためには、データ収集とアノテーションの作業が必要です。そのため、画像アノテーションの種類や教師データについて、正しく理解しておく必要があります。
また、企業によって予算も大きく異なるため、導入前の段階でサービス導入の費用感も理解しておくと良いでしょう。
なお、教師データ作成サービスは導入がゴールではありません。運用していく中で「AIの精度がなかなか上がらない」「精度が下がってきた」といったことも起こり得ます。このような時のために、下記の運用のポイントを押さえておくと良いでしょう。
教師データ作成ガイドラインを改善する
教師データ作成の際には、通常ガイドラインを作成しチームで共有します。AIの精度に問題が発生した際は、以下を確認してみましょう。
- チーム内でガイドラインを順守できているか
- 現場で扱うデータに変化はないか
- 既存のガイドラインでは対応しきれない状況はないか
教師データ作成はAIの精度維持・向上において非常に重要なパートです。定期的に「ガイドラインを順守できているか」や「アップデートの必要がないか」を見直すと良いでしょう。