AIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索・資料請求サイト
TEL
MAIL
03-6452-4750

AIアノテーションの意味とは?タグ付け自動化ツール16選を比較

最終更新日:2019/12/26

AIアノテーションの意味とは?タグ付け自動化ツール16選を比較

近年、AI・人工知能の技術は急速に進歩しており、さまざまな業界でAIを導入するケースが見受けられます。実際、AIを活用したサービスを利用する方や、実際に業務でAIを活用する方も増えてきていることでしょう。

そんなAI領域ですが、専門用語も数多く存在しているため、正しく理解した上でAIを使いこなしていくには専門用語の理解が欠かせません。そこで今回は、AIを理解する上で重要な「アノテーション」について詳しく解説するとともに、アノテーションを行うツールをご紹介していきますので、ぜひ参考にしてみてください。

■アノテーションとはどんな意味?

■そもそも「アノテーション」とは何か?|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

アノテーションとは、音声や画像、テキストといったさまざまな形態のデータに対し、関連する情報(メタデータ)を注釈として付け加えていく作業のことを指します。「さまざまな形態のデータにタグ付けを行う作業」という意味の言葉であると考えれば分かりやすいでしょう。また、最近ではYouTubeの動画上で表示される、クリックも可能なアノテーションがYouTubeに投稿されている多くの動画で見かけるようになりましたので、一度は目にしている方も多いでしょう。一方、AI業界におけるアノテーションは、「機械学習のモデルを作成する上で必要となる教師データ(正解データ、ラベル)の作成作業」を指します。

さまざまな形態のデータに対してタグ付けを行い、そのタグ付けされたデータを取り込むことによって、AIはそれぞれのデータのパターンを認識することができるようになり、アルゴリズムを学習できるのです。逆に、正確なタグ付けを行えていないデータを取り込んでも、AIは正しく学習することができません。そのため、機械学習アルゴリズムを学習させるためには、タグ付けしたデータが必要不可欠といえるわけです。

そんなアノテーションですが、種類はひとつだけではありません。最近では、自然言語処理を活用したゲノム解析のアノテーションなども話題になっています。さまざまな種類のアノテーションが存在しますので、代表的なものをみていきましょう。

 

・意味的(セマンティック)アノテーション

意味的アノテーションとは、人の名前や商品名、企業名など、テキスト内のさまざまな単語に対して意味付けを行うアノテーションのことです。主に、検索エンジンにおける関連性の改善や、チャットボットの学習などに用いられています。

 

・画像・映像アノテーション

画像・映像アノテーションは、機械学習による画像認識・映像処理の精度を高めるためのアノテーションです。機密情報の漏洩防止や商品リストの分類、自動車の自動運転など、さまざまな分野で活用されています。当然こういった機械学習モデルには画像・映像の内容を理解するための力が求められるため、画像認識や映像処理を機械学習アルゴリズムに正しく学習させるためにも、正確にタグ付けされたデータを大量に用意することが重要になるわけです。

 

・文節チャンキング

文節チャンキングでは、名詞や動詞、形容詞といった品詞にタグ付けを行います。品詞がひとつ変わるだけで文章の意味合いが大きく変化することも少なくないため、文章の意味を正しく理解する必要がある「チャットボットの開発」などにおいては文節チャンキングが欠かせません。

 

・テキストやコンテンツの分類

テキストやコンテンツの分類も「アノテーション」に該当します。テキストやコンテンツの分類というのは、具体的には、あらかじめ定義したカテゴリを、フリーテキストで書かれた文書に割り当てていくという作業です。これにより、文書内の文や段落を、トピックごとにダグ付することなどが可能になります。
ニュースサイトで、「芸能」「スポーツ」「政治」といったカテゴリごとに表示されているのを目にしたことがある方も多いのではないでしょうか。こういったニュース記事のカテゴリ分けは、まさにこのアノテーションによって実現されているものなのです。

 

・エンティティアノテーション

エンティティアノテーションとは、AIが正しく文章を認識できるように、非構造化文章にタグを付ける作業のことを指します。「エンティティ」は、データの構築を行う際に、「人」「物」「地名」「事象」「サービス」といった対象物をカテゴリごとに分ける作業のことです。このエンティティに基づいて非構造化文章にタグ付けをすることで、AIが文章を正しく認識することができるようになるのです。
ただ、このエンティティアノテーションにもさまざまな種類が存在しており、多くのソリューションでは複数のシステムが組み込まれています。そのため、データサイエンティストが要棟に応じた方法でデータを操作することが可能です。

 

・意図抽出

チャットボットを構築する場合、ユーザーから寄せられた質問の意図を適切に認識できるようにするアルゴリズムが必要可決です。たとえば、旅行サイトのチャットボットに対して以下のような問い合わせが寄せられたとします。

・キャンセル料を支払うので、予約をキャンセルしたいです。
・キャンセルする場合、キャンセル料は発生しますか?
・無断でキャンセルした場合のキャンセル料はいくらですか?

上記の文章にはすべて「キャンセル料」という言葉が含まれています。しかし、それぞれの文章の「意味」は大きく異なるものであることがお分かりいただけるでしょう。そのため、チャットボットがこれらの「意味」を的確に理解できるようにしておかなければ、「キャンセル料がいくらなのか知りたい」という問い合わせに対して「キャンセルを申請している」という誤った認識をしてしまう可能性があるのです。

このようなミスを防ぐためにも、意図抽出によって語句や文というレベルでのタグ付けが必要になります。文章を適切に理解する上で、この意味抽出は極めて重要であることがお分かりいただけるでしょう。

(参照:ZDNet Japan AI開発でよく耳にする「アノテーション」とは?)

 

■機械学習や画像処理で有効活用できるアノテーションツール

アノテーションがどのような作業なのかお分かりいただけたかと思いますが、ここからは実際にアノテーションを行うことができるツールをご紹介していきます。ぜひ参考にしてみてください。

 

◆AIアノテーションツール1:harBest for Data

harBest

harBest for Dataは、クラウド上でデータ登録・作成作業の管理を行うことが出来るプラットフォームです。
作業者はスマートフォンアプリまたはWebアプリを使用して画像・動画・文章・音声などのアノテーションを行えます。独自のデータ品質自動評価で高品質なデータを提供をすることが可能です。
また、オートアノテーション機能を採用し、データ作成の工数削減をサポートします。

 

harBest for Data の詳細ページ

 

◆AIアノテーションツール2:Lionbridge AI

◆Lionbridge AI|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

(参照:Lionbridge AI)

Lionbridge AIは、AI事業を展開する企業に対してAI学習データを提供しているプラットフォームです。すでに50万人以上のクラウドワーカーが登録しており、何万枚といった画像でも適切なタグによってスピーディーにアノテーションすることができます。また、幅広いアノテーションに対応しているのも特徴です。Lionbridge AIでは主に以下のようなアノテーションを行うことができるようになっています。

・翻訳
・商品のジャンル分け
・言語識別
・テキスト抽出
・OCR文字校正
・文字起こし
・感情分析
・映像・画像アノテーション
・データ分類
・コンテンツ分類
・音声・スピーチ分析
・エンティティ抽出

 

◆AIアノテーションツール3:Microsoft VoTT

◆Microsoft VoTT|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

(参照:microsoft/VoTT: Visual Object Tagging Tool: An electron app for building end to end Object Detection Models from Images and Videos.)

VoTT(Visual Object Tagging Tool)は、Microsoftが提供している無料のアノテーションツールです。動画や画像に対してアノテーションを行うことができ、WindowsやMac、Linuxなどクロスプラットフォームで利用することもできます。そんなVoTTの主な特徴としては、以下のような点が挙げられます。

・GUI 操作により、専門知識がない人でも手軽にタグ付けができる
・動画と画像に対してタグ付けでき、特に動画はトラッキング機能があるため使いやすい
・CNTK、Tensorflow(Pascal VOC)、YOLO のアルゴリズムを使う場合は、そのまま使用できる形式で出力可能

上記が主な特徴といえますが、使用するにあたり注意しなければならない点も存在します。例えば、アノテーションによって出力された json ファイルを画像切り出しに使う場合には、ファイル名が格納されません。そのため、ファイル名を別に取得する必要があるわけです。また、CNTK、Tensorflow(Pascal VOC)、YOLO以外のアルゴリズムを使う場合には、データセットが別で必要になるため注意しましょう。

 

◆AIアノテーションツール4:LabelBox

◆LabelBox|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

(参照:Labelbox: The leading training data solution)

LabelBoxは、年間500ラベルまで無料で使用することができる画像アノテーションツールです。LobelBox上のサーバーに画像データをアップロードして使用したり、AWS(Amazon Web Services)上にある自社のデータに対して使用したりすることができます。物体検出用のBounding Boxだけでなく、Semantic Segmentationで使用できるPolygon、姿勢推定に使用できるPointなどにも対応しているのが特徴です。
また、出力フォーマットに関しても豊富な形式に対応しており、CSVやJSON、Pascal VOC、COCOといった形式での出力が可能になっています。

 

◆AIアノテーションツール5:Incubit

Incubit

(参照:株式会社インキュビット | ディープラーニング実装 画像認識AI開発)

Incubit Annotation Platformは、複数人で行うアノテーションプロジェクトを高品質かつ短納期で実現できるアノテーションツールです。作業効率の改善につなげられるアノテーション機能が豊富に揃っており、画像を確認しながら正確な指示をリアルタイムで共有することができます。

 

◆AIアノテーションツール6:COCO Annotator

(参照:openvinotoolkit/cvat: Powerful and efficient Computer Vision Annotation Tool (CVAT))

CVAT(Computer Vision Annotation Tool)はブラウザで利用できる無料のアノテーションツールです。医療現場で使われるDICOMの処理やトラッキング、3Dの矩形のアノテーションなど様々な処理が可能。データセットを読み込むとオートアノテーションも可能です。

 

◆AIアノテーションツール7:Flow

flow

(参照:トップページ | 日本FLOW株式会社)

Flowは、ワンストップで実現できるデータ処理サービスです。アノテーションはもちろんのこと、バウンディングボックス、セグメンテーション、ピンポイント、骨格検出など、さまざまな画像アノテーションに対応することができます。

 

◆AIアノテーションツール8:LabelImg

LabelImg

(参照:tzutalin/labelImg: 🖍️ LabelImg is a graphical image annotation tool and label object bounding boxes in images)

LabelImgは、オープンソースで提供されている画像アノテーションツールです。画像にバウンディングボックスを描けるという点は大きな特徴といえるでしょう。

 

◆AIアノテーションツール9:ImgLab

ImgLab

(参照:ImgLab – Image Annotation tool)

ImgLabは、物体検出や顔認証モデルにも適応しているアノテーションツールであり、dlibというC/C++ベースのコンピュータビジョンライブラリに同梱されています。物体検出用のバウンディングボックスや、姿勢推定時に利用できる特徴点のプロットが行えます。また、ブラウザ上で利用できるという利便性の高さも大きな魅力といえるでしょう。

 

◆AIアノテーションツール10:Annotorious

Annotorious

(参照:annotorious/annotorious: Project has moved to http://github.com/recogito/annotorious)

Annotoriousは、JavaScriptで構築された画像アノテーションツールです。特徴としては、オープンソースで提供されている点が挙げられるでしょう。

 

◆AIアノテーションツール11:CVAT

(参照:openvinotoolkit/cvat: Powerful and efficient Computer Vision Annotation Tool (CVAT))

CVAT(Computer Vision Annotation Tool)はブラウザで利用できる無料のアノテーションツールです。医療現場で使われるDICOMの処理やトラッキング、3Dの矩形のアノテーションなど様々な処理が可能。データセットを読み込むとオートアノテーションも可能です。

 

◆AIアノテーションツール12:Image Annotation Programme

Image Annotation Programme

(参照:frederictost/images_annotation_programme: Online web tool for image annotation (Pascal VOC format used in Image Recognition))

Image Annotation Programmeは、Webブラウザ上で使用することができるアノテーションツールです。MITライセンスによってコードが公開されており、Pascal VOCフォーマットでバウンディングボックスが出力されます。

 

◆AIアノテーションツール13:LabelMe

LabelMe

(参照:LabelMe. The Open annotation tool)

LabelMeは、MITで開発されたアノテーションツールであり、セマンティックセグメンテーションに使用することができます。サーバー上にインストールすれば、Webブラウザ上からアノテーションが行えるようになるという点はメリットといえるでしょう。

 

◆AIアノテーションツール14:VATIC

VATIC

(参照:vatic – Video Annotation Tool – UC Irvine)

VATICは、ブラウザから動画アノテーションが行えるツールです。使用する場合は、コードをダウンロードした上で、自分のサーバー上で運用するという手順を踏む必要があります。特徴としては、動画のフレームに対してバウンディングボックスを設定し、そこに物体名やアクションなどをラベル付けできるという点が挙げられるでしょう。また、数フレームおきにアノテーションを行った場合には、その間を自動補正してくれるという機能も備わっています。

 

◆AIアノテーションツール15:LEAR Image Annotation Tool

LEAR Image Annotation Tool

(参照:LEAR – Image Annotation Tool – Alexander Kläser)

LEAR Image Annotation Toolは、セマンティックセグメンテーション用のラベルを作成することができるオフラインツールです。C++とQtライブラリを利用して開発されており、GPLライセンスのツールです。

 

◆AIアノテーションツール16:Datatang AI

Datatang AIはアノテーション自動化処理の特許で、様々なAI応用シーンに利用される多種多様なデータアノテーションニーズに対応。AIデータ処理プラットフォームサービス「Shujiajia Pro」は多数のアノテーションツール、自動アノテーション技術、安全納品管理、データ管理などの機能を搭載し、一連のデータ処理が可能です。

 

Datatang AI の詳細ページ

 

■「アノテーション選び方ガイド」で失敗しないAIベンダー探し

アノテーションの選び方ガイドを公開~AI担当者必見!機械学習に欠かせないアノテーションの選び方を解説~

アノテーションの意味や、ご紹介したアノテーションツールの特徴などはお分かりいただけたかと思います。しかし、「インターネット上の情報だけではそれぞれのアノテーションツールの強みや個性を把握するのが難しい」と感じてしまう方もいらっしゃるかもしれません。

例えば、継続的な発注を行うパートナーとしてアノテーションの外注先をお探しの方は、コミュニケーションが円滑に取れることが大事な要素として挙げられるでしょう。AIsmileyでは、それらのアノテーション選びにおいて重要となるポイントをまとめた資料「アノテーションの選び方ガイド」を公開しております。

以下のページにて、「アノテーションの選び方ガイド」の入手方法を詳しくご紹介しておりますので、併せてご覧ください。

 

アノテーション選び方ガイドの詳細を見る

 

■AI開発を合理的に進めるためにもアノテーションツールを活用しよう

今回は、アノテーションについて解説するとともに、アノテーションを行ってくれるツールについても紹介させていただきました。開発担当者がいちからAIを開発していく場合、相当な時間を要することが予想されますが、最近ではアノテーションを支援する企業やツールも非常に多くなってきています。そのため、自社にとって最適なアノテーションツールを活用することができれば、より合理的にAI開発を進めていくことができるでしょう。

少子高齢化による働き手不足の深刻化によって、AIによる業務効率化に注目が集まっているにも関わらず、AIの開発に多くの時間を費やしてしまっては意味がありません。より効率的にAIを活用していくためにも、導入への最短距離を歩んでいくことが大切になるのではないでしょうか。

そのためにも、機械学習アルゴリズムの構築を正確かつスピーディーに進めてくれるパートナーの存在が必要不可欠です。アノテーションはAIの品質に直結するものであり、AIは企業の業績にも直結するものといえますので、ぜひ今回ご紹介した内容を参考に、アノテーションサービスやアノテーションツールの利用を検討していってみてください。また、無料で使用できるアノテーションツールも存在しますので、それらも併せて有効活用していくと良いでしょう。

 

アノテーションのサービス比較と企業一覧を見る

 

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら