DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
03-6452-4750 10:00〜18:00 年末年始除く

バウンディングボックスとは?AIによる物体検出の手法とできること

最終更新日:2024/02/08

バウンディングボックスは、画像認識やグラフィクスでよく使用される一般的な概念で、AIによる物体検出の手法を理解する上でも重要です。

この記事では、バウンディングボックスの基本知識から物体検出の代表的な手法の種類、物体検出の活用事例などについて紹介します。日常生活やビジネスシーンにおいて今後さらなる進歩と活躍が期待されるAI物体検出技術について、理解を深める上でぜひ参考にしてください。

物体検出について詳しく知りたい方は以下の記事もご覧ください。
ディープラーニングを用いた画像の物体検出とは?モデルや応用例を紹介

アノテーションのサービス比較と企業一覧

バウンディングボックス(Bounding Box)とは

バウンディングボックス(Bounding Box)とは、画像や映像の中の物体を囲んだ部分領域のことです。物体検出では、バウンディングボックスを使って、画像内の物体の位置推定とクラスの分類を実行します。

また、グラフィックス業界で頻繁に登場する共通概念としても知られており、ゲーム映像など3Dグラフィクスでもオブジェクトごとにバウンディングボックスが割り当てられるのが一般的です。

バウンディングボックスの主な表現方法は、コーナー2点による表現と、中心点と幅・高さを使う表現の2種類があります。

物体検出とAI

物体検出とは、画像から物体の種類や位置、個数などの情報を特定する技術のことです。人間が画像を見て、写っている物体の情報を即座に判断できるのと同様に、物体検出技術ではコンピューターが画像内の物体に関する情報を認識します。

コンピューターでは画像をピクセルの集まりとして認識し分析していきますが、畳み込みやプーリングなど特殊手法を用いることで、物体の特徴を捉えることが可能です。

近年のAI技術の発展により、画像や映像の物体検出にもAIが使用されており、すでに日常生活にも登場しています。これからの時代を担う重要な技術として、さらなる進歩と向上が期待できるでしょう。

物体検出に欠かせないアノテーション

物体検出において高い精度を実現するためには、正確なアノテーション(Annotation)が必要です。アノテーションとは、テキストや音声、動画といった異なるデータに、ラベルやタグを付ける作業を意味します。特定の情報に対して情報タグを付け、AIが物体の認識・識別をできる仕組みです。

アノテーションによってラベル付けされた情報は、AIの機械学習アルゴリズムに取り込まれて初めてパターン認識が実現します。

そのため、ラベル付けが正確でないデータがあると、AIが正しく学習できずデータ処理が進みません。アノテーションの精度は物体検出において非常に重要といえます。

物体検出の代表的な手法

物体検出の代表的な5つの手法について解説します。複数の手法を組み合わせて使うことも可能なので、それぞれの特徴について押さえておきましょう。

R-CNN

R-CNN(Region-Convolutional Neural Networks)とは、従来の物体検出モデルをCNN画像認識モデル)に置き換えたものです。CNNは「畳み込みニューラルネットワーク」と呼ばれ、「畳み込み層」や「プーリング層」といった個性的な機能を備えた層を積み上げることで構成されています。

R-CNNでは画像データを入力すると、データの中から物体のある領域の候補を抽出した後、CNNによって各候補の特徴量を計算してから、各領域内の物体を分類するという手順です。検出できる物体数は約2,000個とも言われ、ディープラーニングを使わない画像検出手法と比べて高精度な結果を実現しています。

Fast R-CNN

Fast R-CNNとは、名前の通りR-CNNを高速化したものです。Fast R-CNNでは、RPN(Resion Proposal Network)と呼ばれるCNN構造によって抽出した領域だけを切り出し、全結合層に与えて画像認識を実行します。従来の画像認識手法に比べて高速処理が可能です。

具体的には、従来のRPNが1,000回だったところ、Fast R-CNNでは1回で済み、単純に1,000分の1もスピードアップしています。また、物体のクラス分類とバウンディングボックスの回帰という2つのタスクの誤差を、同時に考慮して最小化できるMulti-task lossも搭載している点も特徴です。

Faster R-CNN

Faster R-CNNは、Fast R-CNNを改良し、検出速度を早めたモデルです。R-CNNで課題とされていた学習時間の短縮やメモリ消費量の縮小を実現するために開発されました。画像の入力から物体検知までを一気に学習し推定できます。

Faster R-CNNでは、まずバウンディングボックスの中身が物体か背景(何も写っていない)かを学習し、続いて具体的に何が写っているのかを学習していく流れです。最初の段階でRPNを用いることで、演算時間を大幅に短縮できます。

YOLO

YOLOとは「You Only Look Once」の略であり、日本語で「見るのは一度きり」という意味のフレーズです。「画像を一目見て、瞬時に理解できる」 というコンセプトのもとで提案されました。

YOLOでは、物体を検知したい画像の入力後、正方形にリサイズし、さらに細かく正方形で分割します。縦長や横長の画像でも正方形にリサイズされるため、ニューラルネットワークによる分析の効率化が進みました。

Faster R-CNNなどYOLO以前の物体検知の手法では、RPNによる検出の後、識別を行うという直列構成のため、処理速度に時間を要します。一方、YOLOは検出と識別という2つの処理を同時に行うので、データを短時間で検出可能です。

SSD

SSD(Single Shot Detector)は、YOLO同様に1つのネットワークで領域の検出やクラス分類を行う手法です。「Single Shot」という名前の通り、1回のCNN演算で物体の領域候補検出とクラス分類を行うため、物体検知の処理時間を短縮しています。

検出精度としては、Faster R-CNNと同レベルを実現しており、サイズが小さな物体の検出や比較的低解像度の画像処理も可能です。

SSDでは、さまざまなサイズの「デフォルトボックス」と呼ばれるパターンをあらかじめ作成します。1枚の画像のどこに何があるかを予測する場合、SSDが画像上に多数のデフォルトボックスを作成し、各枠で予測値を計算していく仕組みです。

物体検出で実現できる8つの技術

物体検出で実現できる技術のうち、すでに私たちの日常生活やビジネスシーンにおいて幅広く採用されているものも多く見られます。ここでは、代表的な8つの物体検出技術の活用事例を見ていきましょう。

自動運転

近年急速に進化、浸透してきた「自動運転」は、AIによる物体検出技術の代表的な活用例です。自動車に搭載されたカメラが周囲を撮影し、画像をAI物体検出に通すことで歩行者や対向車、障害物といった物体を識別します。標識や信号など状況を的確に認識し、適切な対応を瞬時に実行可能です。

国土交通省の資料によると、米国SAE(Society of Automotive Engineers)が定める自動車の自動運転レベルは、ドライバーによる監視のレベル1〜2と、システムによる監視のレベル3〜5という5段階構成です。一般的な自動運転と呼ばれる技術は自動運転レベルの3以上とされ、近年では一定区間内のシャトルバスや物流輸送などで導入されています。

日本国内では、自動車学校の教習シーンにおける自動運転の活用事例として「AI教習システム」の自動運転試乗会が実施されました。レベル5の「完全自動走行」を実現すべく、世界的に自動運転の実装への取り組みが進められている最中です。

異常検知

製造ラインにおける製品の不良や異常を調べる「異常検知」にも、物体検出が活用されています。従来の製造現場における異常検知は、検査員が不良品の基準を示す限度見本と見比ながら、異常や不良を調べる目視検査がほとんどでした。

しかし、検査員による品質のバラつきや、少子高齢化による人材不足などの課題が目立つようになり、AI物体検出技術を用いた外観検査の自動化が進められています。

AI物体検出を使った異常検知により、ベテランだけが持つ経験値や勘に頼ることなく、品質の向上や均一化を実現可能です。また、生産効率性の向上に加えて、検査工程の省力化による負担の軽減や人員コスト削減といった効果も期待できるでしょう。近年は、製造ラインにAIを搭載したカメラを設置し、高速処理できるエッジAIも登場しています。

外観診断

物体検出技術は、建造物の「外観診断」にも応用されています。従来の建物の外観劣化診断は、担当者が主観で判断していましたが、物体検出技術によってAIを使った自動診断が実現し、診断結果の標準化や精度の向上、人員コストの削減といった効果が得られました。

一般的には、AIに膨大な量の画像データを学習させた後、学習用と検証用の2つのデータを用いて画像データを劣化度ごとに分類します。続いて、学習用データと違いがどのくらいあるか、正誤率を確認して精度を評価するという手順です。

防犯や監視

監視カメラをはじめ、防犯や監視の用途での物体検知技術も浸透しています。従来では、監視カメラを固定しておき、画面内に変化が現れた際に異常として捉える仕組みでした。

物体検知を用いた監視カメラでは、上記に加えて検出した物体の追跡や不審な動きの判断、解析も実現しています。そのため、カメラ映像から侵入者の特定や、不審物の置き去りといった事態をすばやく検知可能です。

医療画像診断

エコー写真やレントゲン写真など、人体内部の画像を使った「医療画像診断」においても、物体検出は重要な役割を担っています。CTやMRIのスキャン画像といった画像データをAIに学習させることで、病気の早期発見や診断が可能です。

実際に、今までは難しいとされてきた微細な初期がん細胞や腫瘍、炎症といった症状の早期発見が実現しており、治療の迅速化や品質の向上といった効果も期待できます。

従来は医師の目視が頼りだった画像診断において、AI物体検出技術が活用されることで、医師の負担軽減や遠隔診断における精度の改良も見込めるでしょう。また、高齢化や過疎化による医療不足の解消にも役立つとされ、将来的な活用が期待されています。

顧客分析

物体検出技術は、店舗の「顧客分析」でも活躍しています。商業施設や飲食店などの店内に設置したカメラの画像データから、顧客数や人の動き、駐車場内の車の台数といったデータをリアルタイムに収集、分析可能です。

各時間帯の顧客の属性情報や購買の傾向などのデータを把握できると、ユーザー層に効果的なアプローチできます。また、店内に設置したデジタルサイネージと連携させて、来店層に合わせた広告を表示させるといった対応も可能でしょう。

顔認証

最も身近なAI技術の1つが「顔認証」です。人間の顔画像から特徴を抽出し、識別を行う顔認証技術は、スマホのロック解除やオフィスの入館管理などで体験している人も多いでしょう。

入館証やIDカードの使い回しや盗難、なりすましや偽装による不正入場の予防にも有効です。実際に、東京2020オリンピック・パラリンピックでは、関係者の会場入場時の本人確認に顔認証技術が採用されました。

顔認証技術は、似た顔の検索や顔のグループ化といった目的でも利用可能です。最近は、顔の識別だけでなく、表情から感情を読み取る「感情認識」の研究にも注目が集まっています。

AIドローン

AI物体検出技術を搭載したAIドローン(小型無人航空機)は、農業や水産業、物流などの分野で急速に浸透しています。ドローンで上空から撮影した画像データをAIが解析することで、異常検知や保守点検などの用途で活用可能です。

近年は安価なドローンも多数出回るようになったため、農家が個人で購入し、農地管理に利用する例も増えています。農地では、AIドローンによって不良作物や異常の検知、収穫量の予測などがスピーディに行えるでしょう。

ただ、天候や電波、飛行物体などの影響を受けやすいといった課題が残されており、今後の改良や進化に注目が集まっています。

AI開発には良質なデータが重要となる

物体検出にも使用されている画像認識技術では、バウンディングボックスをはじめさまざまな要素が関係しています。日常生活やビジネスにおいてAI物体検出技術が幅広く採用される中、より高い精度を実現するためには、良質なデータを収集できるAI技術を利用することが大切です。

AIsmileyでは「AIアノテーションの選び方ガイド」を無料配布中です。物体検出を取り入れる上で押さえておくべき情報をまとめていますので、自社でのAI開発やシステム導入を検討する際にぜひお役立てください。

画像認識について詳しく知りたい方は以下の記事もご覧ください。
画像認識とは?AIを使った仕組みや最新の活用事例を紹介

\アノテーションの進め方を紹介/
無料で資料請求

よくある質問

バウンディングボックスとは何ですか?

バウンディングボックス(Bounding Box)とは、画像や映像の中の物体を囲んだ部分領域のことです。物体検出では、バウンディングボックスを使って、画像内の物体の位置推定とクラスの分類を実行します。

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Xもフォローください
@AIsmiley_inc

メルマガに登録する

DXトレンドマガジン メールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

今注目のカテゴリー

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

ChatGPT連携サービス

チャットボット

画像認識・画像解析

需要予測

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら