生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2024/01/30
近年、AI・人工知能の技術は急速に進歩しており、さまざまな業界でAIを導入するケースが見受けられます。実際、AIを活用したサービスを利用する方や、実際に業務でAIを活用する方も増えてきていることでしょう。
そんなAI領域ですが、専門用語も数多く存在しているため、正しく理解した上でAIを使いこなしていくには専門用語の理解が欠かせません。そこで今回は、AIを理解する上で重要な「アノテーション」について詳しく解説するとともに、アノテーションを行うツールをご紹介していきますので、ぜひ参考にしてみてください。
アノテーションについて詳しく知りたい方は以下の記事もご覧ください。
アノテーションとは?AI機械学習に欠かせない作業の種類を解説

アノテーションとは、音声や画像、テキストといったさまざまな形態のデータに対し、関連する情報(メタデータ)を注釈として付け加えていく作業のことを指します。「さまざまな形態のデータにタグ付けを行う作業」という意味の言葉であると考えれば分かりやすいでしょう。また、最近ではYouTubeの動画上で表示される、クリックも可能なアノテーションがYouTubeに投稿されている多くの動画で見かけるようになりましたので、一度は目にしている方も多いでしょう。一方、AI業界におけるアノテーションは、「機械学習のモデルを作成する上で必要となる教師データ(正解データ、ラベル)の作成作業」を指します。
さまざまな形態のデータに対してタグ付けを行い、そのタグ付けされたデータを取り込むことによって、AIはそれぞれのデータのパターンを認識することができるようになり、アルゴリズムを学習できるのです。逆に、正確なタグ付けを行えていないデータを取り込んでも、AIは正しく学習することができません。そのため、機械学習アルゴリズムを学習させるためには、タグ付けしたデータが必要不可欠といえるわけです。
そんなアノテーションですが、種類はひとつだけではありません。最近では、自然言語処理を活用したゲノム解析のアノテーションなども話題になっています。さまざまな種類のアノテーションが存在しますので、代表的なものをみていきましょう。
意味的アノテーションとは、人の名前や商品名、企業名など、テキスト内のさまざまな単語に対して意味付けを行うアノテーションのことです。主に、検索エンジンにおける関連性の改善や、チャットボットの学習などに用いられています。
画像・映像アノテーションは、機械学習による画像認識・映像処理の精度を高めるためのアノテーションです。機密情報の漏洩防止や商品リストの分類、自動車の自動運転など、さまざまな分野で活用されています。当然こういった機械学習モデルには画像・映像の内容を理解するための力が求められるため、画像認識や映像処理を機械学習アルゴリズムに正しく学習させるためにも、正確にタグ付けされたデータを大量に用意することが重要になるわけです。
文節チャンキングでは、名詞や動詞、形容詞といった品詞にタグ付けを行います。品詞がひとつ変わるだけで文章の意味合いが大きく変化することも少なくないため、文章の意味を正しく理解する必要がある「チャットボットの開発」などにおいては文節チャンキングが欠かせません。
テキストやコンテンツの分類も「アノテーション」に該当します。テキストやコンテンツの分類というのは、具体的には、あらかじめ定義したカテゴリを、フリーテキストで書かれた文書に割り当てていくという作業です。これにより、文書内の文や段落を、トピックごとにダグ付することなどが可能になります。
ニュースサイトで、「芸能」「スポーツ」「政治」といったカテゴリごとに表示されているのを目にしたことがある方も多いのではないでしょうか。こういったニュース記事のカテゴリ分けは、まさにこのアノテーションによって実現されているものなのです。
エンティティアノテーションとは、AIが正しく文章を認識できるように、非構造化文章にタグを付ける作業のことを指します。「エンティティ」は、データの構築を行う際に、「人」「物」「地名」「事象」「サービス」といった対象物をカテゴリごとに分ける作業のことです。このエンティティに基づいて非構造化文章にタグ付けをすることで、AIが文章を正しく認識することができるようになるのです。
ただ、このエンティティアノテーションにもさまざまな種類が存在しており、多くのソリューションでは複数のシステムが組み込まれています。そのため、データサイエンティストが要棟に応じた方法でデータを操作することが可能です。
チャットボットを構築する場合、ユーザーから寄せられた質問の意図を適切に認識できるようにするアルゴリズムが必要不可欠です。たとえば、旅行サイトのチャットボットに対して以下のような問い合わせが寄せられたとします。
上記の文章にはすべて「キャンセル料」という言葉が含まれています。しかし、それぞれの文章の「意味」は大きく異なるものであることがお分かりいただけるでしょう。そのため、チャットボットがこれらの「意味」を的確に理解できるようにしておかなければ、「キャンセル料がいくらなのか知りたい」という問い合わせに対して「キャンセルを申請している」という誤った認識をしてしまう可能性があるのです。
このようなミスを防ぐためにも、意図抽出によって語句や文というレベルでのタグ付けが必要になります。文章を適切に理解する上で、この意味抽出は極めて重要であることがお分かりいただけるでしょう。
実際にアノテーションツールを使用する場合、どのようなポイントに着目して選んでいけば良いのでしょうか。ここからは、アノテーションツールを選ぶ上で重要となる3つのポイントをご紹介していきますので、ぜひ参考にしてみてください。
アノテーションツールは、構築していくAIモデルに合わせて最適なものを選ぶことが大切です。「画像認識」「音声認識」「自然言語処理」など、目的ごとに最適なツールは異なりますので、まずは目的を明確にした上で、アノテーションツールを選んでいきましょう。
アノテーションは、目的ごとに作業内容も大きく異なります。たとえば、画像認識における「物体検出」であれば、画像内の特定の物体をバウンディングボックスで囲んでタグ付けしていくという作業内容です。
一方、画像認識における「画像分類」であれば、画像全体にタグ付けを行っていく必要があります。自社で行うべき作業内容にマッチした機能を備えるツールを導入・活用していくことが重要です。
せっかくアノテーションツールを導入しても、ツール自体が使いにくければ意味がありません。アノテーションでは膨大なデータの処理を行うことになりますので、使いやすさ(操作性)に優れたものを導入することが大切になるでしょう。
また、企業ごとに重宝される機能も異なりますので、自社にとって最適な形にカスタマイズできる柔軟性があるツールを選択すると、さらなる効率化を実現できるでしょう。
アノテーションがどのような作業なのかお分かりいただけたかと思いますが、ここからは実際にアノテーションを行うことができるツールをご紹介していきます。ぜひ参考にしてみてください。教師データ作成カオスマップも無料配布しています。比較検討にぜひご活用ください。

FastLabelはアノテーションツール、教師データ作成サービス、MLOps構築を包括した国内拠点のアノテーションプラットフォームです。
端末へのインストール不要で、画像や動画、テキスト、音声などのアノテーションをウェブ上からすぐに開始できます。コピー&ペーストなどホットキーによる作業効率化の機能が豊富に備わっており、YOLO、COCO、PascalVOC、labelme 形式にも標準対応しています。
また、一部機能を無料で提供しており、ホームページよりアカウント登録して簡単にご利用を開始できます。

harBest for Dataは、クラウド上でデータ登録・作成作業の管理を行うことが出来るプラットフォームです。
作業者はスマートフォンアプリまたはWebアプリを使用して画像・動画・文章・音声などのアノテーションを行えます。独自のデータ品質自動評価で高品質なデータを提供することが可能です。
また、オートアノテーション機能を採用し、データ作成の工数削減をサポートします。

TELUS International AI(旧:Lionbridge AI)は、AI事業を展開する企業に対してAI学習データを提供しているプラットフォームです。すでに50万人以上のクラウドワーカーが登録しており、何万枚といった画像でも適切なタグによってスピーディーにアノテーションすることができます。また、幅広いアノテーションに対応しているのも特徴です。TELUS International AIでは主に以下のようなアノテーションを行うことができるようになっています。

VoTT(Visual Object Tagging Tool)は、Microsoftが提供している無料のアノテーションツールです。動画や画像に対してアノテーションを行うことができ、WindowsやMac、Linuxなどクロスプラットフォームで利用することもできます。そんなVoTTの主な特徴としては、以下のような点が挙げられます。
・GUI 操作により、専門知識がない人でも手軽にタグ付けができる
・動画と画像に対してタグ付けでき、特に動画はトラッキング機能があるため使いやすい
・CNTK、Tensorflow(Pascal VOC)、YOLO のアルゴリズムを使う場合は、そのまま使用できる形式で出力可能
上記が主な特徴といえますが、使用するにあたり注意しなければならない点も存在します。例えば、アノテーションによって出力された json ファイルを画像切り出しに使う場合には、ファイル名が格納されません。そのため、ファイル名を別に取得する必要があるわけです。また、CNTK、Tensorflow(Pascal VOC)、YOLO以外のアルゴリズムを使う場合には、データセットが別で必要になるため注意しましょう。

LabelBoxは、年間500ラベルまで無料で使用することができる画像アノテーションツールです。LobelBox上のサーバーに画像データをアップロードして使用したり、AWS(Amazon Web Services)上にある自社のデータに対して使用したりすることができます。物体検出用のBounding Boxだけでなく、Semantic Segmentationで使用できるPolygon、姿勢推定に使用できるPointなどにも対応しているのが特徴です。
また、出力フォーマットに関しても豊富な形式に対応しており、CSVやJSON、Pascal VOC、COCOといった形式での出力が可能になっています。

Incubit Annotation Platformは、複数人で行うアノテーションプロジェクトを高品質かつ短納期で実現できるアノテーションツールです。作業効率の改善につなげられるアノテーション機能が豊富に揃っており、画像を確認しながら正確な指示をリアルタイムで共有することができます。

CVAT(Computer Vision Annotation Tool)はブラウザで利用できる無料のアノテーションツールです。医療現場で使われるDICOMの処理やトラッキング、3Dの矩形のアノテーションなど様々な処理が可能。データセットを読み込むとオートアノテーションも可能です。

Flowは、ワンストップで実現できるデータ処理サービスです。アノテーションはもちろんのこと、バウンディングボックス、セグメンテーション、ピンポイント、骨格検出など、さまざまな画像アノテーションに対応することができます。

LabelImgは、オープンソースで提供されている画像アノテーションツールです。画像にバウンディングボックスを描けるという点は大きな特徴といえるでしょう。

ImgLabは、物体検出や顔認証モデルにも適応しているアノテーションツールであり、dlibというC/C++ベースのコンピュータビジョンライブラリに同梱されています。物体検出用のバウンディングボックスや、姿勢推定時に利用できる特徴点のプロットが行えます。また、ブラウザ上で利用できるという利便性の高さも大きな魅力といえるでしょう。

Annotoriousは、JavaScriptで構築された画像アノテーションツールです。特徴としては、オープンソースで提供されている点が挙げられるでしょう。

CVAT(Computer Vision Annotation Tool)はブラウザで利用できる無料のアノテーションツールです。医療現場で使われるDICOMの処理やトラッキング、3Dの矩形のアノテーションなど様々な処理が可能。データセットを読み込むとオートアノテーションも可能です。

Image Annotation Programmeは、Webブラウザ上で使用することができるアノテーションツールです。MITライセンスによってコードが公開されており、Pascal VOCフォーマットでバウンディングボックスが出力されます。

LabelMeは、MITで開発されたアノテーションツールであり、セマンティックセグメンテーションに使用することができます。サーバー上にインストールすれば、Webブラウザ上からアノテーションが行えるようになるという点はメリットといえるでしょう。

VATICは、ブラウザから動画アノテーションが行えるツールです。使用する場合は、コードをダウンロードした上で、自分のサーバー上で運用するという手順を踏む必要があります。特徴としては、動画のフレームに対してバウンディングボックスを設定し、そこに物体名やアクションなどをラベル付けできるという点が挙げられるでしょう。また、数フレームおきにアノテーションを行った場合には、その間を自動補正してくれるという機能も備わっています。

LEAR Image Annotation Toolは、セマンティックセグメンテーション用のラベルを作成することができるオフラインツールです。C++とQtライブラリを利用して開発されており、GPLライセンスのツールです。

Datatang AIはアノテーション自動化処理の特許で、様々なAI応用シーンに利用される多種多様なデータアノテーションニーズに対応。AIデータ処理プラットフォームサービス「Shujiajia Pro」は多数のアノテーションツール、自動アノテーション技術、安全納品管理、データ管理などの機能を搭載し、一連のデータ処理が可能です。

VIAは、画像、音声、映像のアノテーションに活用することができるツールです。誰でも無料で利用することができるオープンソースの亜ノテーションツールである点は、大きな魅力といえるでしょう。
VIAの特徴としては、物体の検出において、複雑なバウンディングボックスを作成できる点が挙げられます。出力形式はcsv形式と、VIA独自のjsonです。

A Semi Automatic Image Annotation Toolは、コマンドで起動するアプリタイプのアノテーションツールです。入力フォーマットは「ローカル」、出力フォーマットは「独自形式(path, x1, y1, x2, y2,category)」となっており、ディープラーニングでオブジェクトの推定を行えます。

BBox-Label-Toolは、pyhotn2.7で作成されているアノテーションツールです。Python3系では起動しないため、注意が必要になります。
アノテーションの意味や、ご紹介したアノテーションツールの特徴などはお分かりいただけたかと思います。しかし、「インターネット上の情報だけではそれぞれのアノテーションツールの強みや個性を把握するのが難しい」と感じてしまう方もいらっしゃるかもしれません。
例えば、継続的な発注を行うパートナーとしてアノテーションの外注先をお探しの方は、コミュニケーションが円滑に取れることが大事な要素として挙げられるでしょう。AIsmileyでは、それらのアノテーション選びにおいて重要となるポイントをまとめた資料「アノテーションの選び方ガイド」を公開しております。
以下のページにて、「アノテーションの選び方ガイド」の入手方法を詳しくご紹介しておりますので、併せてご覧ください。
今回は、アノテーションについて解説するとともに、アノテーションを行ってくれるツールについても紹介させていただきました。開発担当者がいちからAIを開発していく場合、相当な時間を要することが予想されますが、最近ではアノテーションを支援する企業やツールも非常に多くなってきています。そのため、自社にとって最適なアノテーションツールを活用することができれば、より合理的にAI開発を進めていくことができるでしょう。
少子高齢化による働き手不足の深刻化によって、AIによる業務効率化に注目が集まっているにも関わらず、AIの開発に多くの時間を費やしてしまっては意味がありません。より効率的にAIを活用していくためにも、導入への最短距離を歩んでいくことが大切になるのではないでしょうか。
そのためにも、機械学習アルゴリズムの構築を正確かつスピーディーに進めてくれるパートナーの存在が必要不可欠です。アノテーションはAIの品質に直結するものであり、AIは企業の業績にも直結するものといえますので、ぜひ今回ご紹介した内容を参考に、アノテーションサービスやアノテーションツールの利用を検討していってみてください。また、無料で使用できるアノテーションツールも存在しますので、それらも併せて有効活用していくと良いでしょう。
ちなみに、自社に専門知識を持つ担当者がいない場合には、アノテーションの代行・委託を検討していくのも一つの手段です。AIsmileyでは、アノテーションサービスの利用料金・初期費用・無料プラン・トライアルの有無などを比較検討できる資料を無料でお配りしています。アノテーションサービスの利用をご検討の際は、ぜひお気軽にご活用ください。
教師データについて詳しく知りたい方は以下の記事もご覧ください。
AIの精度向上に欠かせない教師データの作成方法とは?
教師あり学習について詳しく知りたい方は以下の記事もご覧ください。
AIの基礎「教師あり学習」とは?種類や具体例を紹介
機械学習について詳しく知りたい方は以下の記事もご覧ください。
機械学習とは何か?種類や仕組みをわかりやすく簡単に説明
AIについて詳しく知りたい方は以下の記事もご覧ください。
AI・人工知能とは?定義・歴史・種類・仕組みから事例まで徹底解説
アノテーションとは、音声や画像、テキストといったさまざまな形態のデータに対し、関連する情報(メタデータ)を注釈として付け加えていく作業のことを指します。「さまざまな形態のデータにタグ付けを行う作業」という意味の言葉であると考えれば分かりやすいでしょう。
アノテーションツールを選ぶ上で重要なポイントは以下の通りです。
代表的なアノテーションは以下の通りです。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら