生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2024/02/07
YOLOの手法と物体検出
AIによる画像解析や物体認識テクノロジーに欠かせない機能として、YOLOが挙げられます。YOLOに代表される物体検出手法は、すでに日常生活やビジネスにおけるさまざまなシーンで活用されており、今後のさらなる発展が期待できるでしょう。
この記事では、YOLOの意味や他の手法との違い、AI物体検出技術の活用事例などについて紹介します。YOLOについて正しく理解し、AIシステム開発に向けたサービス導入を検討する際にぜひお役立てください。
物体検出について詳しく知りたい方は以下の記事もご覧ください。
ディープラーニングを用いた画像の物体検出とは?モデルや応用例を紹介
YOLOとは、物体を検出するときに使用される代表的なアルゴリズムです。YOLOという言葉は「You Only Look Once」という英文の頭文字を取って作られました。日本語だと「一度見るだけで良い」という意味で、人間のように一目見ただけで物体検出ができることを指しています。
多くの人がYOLOと聞いてイメージする「You Only live Once(人生一度きり)」という格言にかけて作られた言葉です。

ここでは、物体検出能力のアルゴリズムが発展してきた歴史について説明します。YOLO以前にも、さまざまな物体検出手法が存在していました。
今まで活用されてきた物体検出手法とYOLOがどのように異なっているか知ることは、YOLOの優れた機能を理解する上で重要です。物体検出手法を代表する3つのタイプを詳しく見ていきましょう。
Sliding window approach(スライディング・ウィンドウ・アプローチ)とは、特定の範囲の配列に着目して処理を行った後、範囲をひとつずらしてまた処理することを繰り返していくアルゴリズムです。
画像の左上から右下に向かって範囲(ウィンドウ)をずらしつながら、画像のすべての領域を探索、検出していきます。このアルゴリズムを採用した手法は、Deformable Parts Models(DPM)などです。
Region proposal method+Deep learning(リージョン・プロポーザル・メソッド+ディープラーニング)は、Region proposal method(RPM)と呼ばれる物体検出方法と、Deep learningによる識別処理を組み合わせた手法です。
RPMで対象物のある領域を検出し、ディープニューラルネットワーク(DNN)が深層学習機能で入力、識別します。R-CNNやFast R-CNNといった物体検出手法が代表例です。この手法は2段階な上、RPMで抽出したすべての領域をDNNが入力するため、多くの時間を要する点が課題とされてきました。
End-to-end(エンドツーエンド)が主流の時代は、先述のRPMにおける検出と識別を一貫してDNNが担当する手法が登場しました。リージョン・プロポーザルをDNNの1つのレイヤーとして組み込むことで、多彩な物体を含む画像をDNNに入力するだけで検出と識別を実行可能です。
「端から端まで(End-to-end)DNNが処理を行ってくれる」という意味で名付けられています。主な物体検出手法には、Faster R-CNNやSSDなどがあり、YOLOも含まれます。従来に比べて高速かつ高精度な検出を実現することが可能です。
YOLOの手法の軸となるのは、End-to-end時代に始まった検出と識別を並行的に行う方法です。YOLOでは、信頼度スコア(Confidence score)という要素を使用します。信頼度スコアは、「分割された領域(BBox)に物体が入っていて、正確に領域を囲えているかの正確さ」と「各クラスの予測確率(画像に写っている物体が特定のクラスに属している可能性)」を意味する指標です。
信頼度スコアによって、どの領域に対象とするクラスの物体が正確に検出されているかを判断します。信頼度スコア算出に必要な要素を、YOLOのアーキテクチャが出力し学習・推論することで、検出と識別の同時進行を実現しているのです。

YOLOを活用することで、物体検出プロセスの効率化以外にも多くのメリットが期待できます。ここでは、YOLOが持つ主な3つのメリットについて見ていきましょう。
YOLOはリアルタイム検出アルゴリズムとも呼ばれ、処理速度が非常に早い点が特徴です。YOLOを使って解析したい画像をコンピューターに入力すると、ニューラルネットワークを使って画像に含まれている物体の領域を識別、出力します。具体的な速度は画像1枚あたり約22ms(1000分の1秒)と言われており、Faster R-CNNと比べて6〜7倍ほど高速化することが可能です。
YOLOでは、画像の入力後にまず画像のリサイズ作業が行われます。画像全体を見て対象物がなさそうな背景部分を先にカットするため、バウンディングボックス設定と分析を同時に行うため、迅速な分析が可能です。
ニューラルネットワークによる画像解析がしやすいように縦長や横長の画像も正方形にリサイズされ、より細かな正方形(グリッド・セル)に分割されて、物体の種類の推定や検出に活用が進められます。
YOLOにおいて、画像に写る物体の範囲を特定するために使われるのは、バウンディング・ボックスです。それぞれのバウンディング・ボックスには、画像内の位置を表す座標軸が設定され、検出対象の物体がある可能性の数値(信頼度スコア)も表示されます。各ボックス内の画像が、物体か背景かを判断しながら、物体全体の大きさも推定可能です。
従来の物体検出手法では画像全体を検出対象としましたが、YOLOにおいては対象物の範囲を特定できるため、高速化や効率化に貢献しています。
YOLOでは、学習に1枚の画像に含まれるすべての範囲を分析するため、背景の誤検出を抑えた正確性の高い特定や推定ができます。先述のグリッド・セルとバウンディング・ボックスでのデータ結果を統合し、どのような物体が画像内に写っているかを特定するのがYOLOの手法です。
グリッド・セルの分析は、各セルのクラス予測確率に基づいて行われ、クラス予測確率が高いほど、コンピュータによるクラス分けの正確性が高いことを意味します。このクラス予測確率とバウンディング・ボックスの組み合わせが、画像のどの範囲にどのような物体が写っているか、という推測を高い精度で実現できるのです。
YOLOには物体検出手法としての多くのメリットがありますが、一方で欠点やデメリットも存在します。
YOLOでは、検出が高速化している代わりに、いくつかの制約があり、分割されたグリッドのサイズは固定で、グリッド内で識別クラスは1つまで、検出対象の物体は2つまでです。そのため、グリッド内に検出すべき物体が大量に写っているケースでは、物体検出の精度が下がる可能性があります。
また、サイズの小さな物体の検出を苦手としており、バウンディング・ボックスを個別に分析できるFaster R-CNNに比べて、識別の精度が低い点も課題です。以上のようなデメリットの改善や課題の解消を通して、YOLOのさらなる発展と進化が期待されています。

ここからは、YOLOを含めた物体検出の活用事例について紹介します。YOLOやAI物体検出手法は、画像データを用いたコンピュータ処理で多く活用されており、代表例としては自動運転車やセキュリティ対策、ユーザー分析、異常検知、画像診断システムなどです。
近年著しく進化を遂げている自動運転は、AIによる物体検知技術の代表的な活用例です。車に搭載されたカメラが周囲の状況を撮影し、その画像に映る標識や障害物、歩行者をAIが認識します。標識の内容や障害物の状況を瞬時に認識し、適切な操作を判断して自動的に走行するシステムです。
自動運転の技術においては、精度の高い画像認識技術を要します。複数カメラの情報を1つのチップに集積するなど、ハードウェアのコンパクト化や省電力化を通した物体検知の精度向上は今後の課題の1つです。
また、複数のカメラやシステムとの連携も重要で、フロントカメラやサイドカメラで物体を正確に認知しながら臨機応変な対応ができなければ、事故が起きる可能性もあるでしょう。
自動車の自動運転技術には、0〜5という5つのレベルがあり、現在の試験運用ではレベル4まで来ています。物体検出や画像認識の技術向上を通してレベル5を実現すべく、世界中の自動車メーカーが取り組んでいる最中です。
セキュリティ対策にも物体検出技術が活躍しています。防犯用の物体検出システムは、施設での事故や事件を防ぐために物体を検知することが主な目的です。
従来の監視カメラでは、固定された撮影シーンで何らかの変化があった場合に、異常として捉える仕組みでした。一方、物体検知を搭載した監視カメラでは、侵入者や不審物の置き去りといった物体の分類や特定など、さらに踏み込んだ処理が実現しています。不審な動きをする物体の追跡も可能です。
最近では、新型コロナウイルス感染拡大防止のために、ソーシャルディスタンス確保に役立つ活用も見込まれています。Amazonによる無人コンビニ「Amazon Go」の登場や、セルフレジの浸透にともない、スタッフが不在の状況でも万引やトラブルを未然に防ぐ目的でも物体検出システムによる防犯対策が有用です。
施設内のユーザーの画像データを用いた顧客分析にも、物体検出手法が役立っています。店内カメラを設置する店舗が増えている中、顧客の移動を記録する行動追跡や、どういった属性の人が何を購入したか、といった商品と顧客情報の結びつけといった処理が可能です。
売れ筋製品の情報や購入者の属性をAIに学習、分析させることで、売り場内の人の滞留時間の算出、売れ筋商品のレイアウト変更に活用できます。
また、店舗デジタルサイネージに応用することも可能です。商品を手に取るとサイネージに商品詳細情報が表示される、ユーザー属性に応じて広告表示を入れ替えるといった対応によって、売上や顧客満足度の向上につながるでしょう。
物体検知技術は、異常検知や外観不良検知にも活用されています。製造現場や工場ラインにAI搭載カメラを設置して、製品の画像データをAIに学習させ、外観検査を実施する使い方です。
従来は、検査員が限度見本と比較しながら製品の合否判定を行う目視検査が主流でしたが、合否の判定には熟練したスキルを要します。また、少子高齢化による人員不足や、検査員による品質のばらつきなどが問題視されてきました。そこで、ソリューションとして異常検知を自動化できるAI物体検知システムのニーズが高まっています。
ベテランの勘や経験頼りで、マニュアル化が難しかった検査をAI物体検出システムが代替することで、検査プロセスの効率化や製品の品質向上が見込めるでしょう。
AI物体検出技術が得意とする画像認識は、医療現場でも重要な役割を担っています。医療分野では、CTや内視鏡など体の内部画像は重要な診断材料です。MRIのスキャン画像やエコー写真をAIのアルゴリズムで処理することで、腫瘍や深部にある病巣、出血や炎症の的確な検出が可能となり、スムーズな治療を実現します。
AI画像分析技術を用いることで、従来は医師の目視に頼ってきた判断を代替でき、診断精度の迅速化や医療品質の向上につながるでしょう。発見が難しいとされてきた微細な初期のがん細胞も、物体検出の技術により早期発見が期待できます。

YOLOは、画像認識に必須となる物体検出手法の中でも最新のアルゴリズムです。従来の物体検出手法より短時間で物体を特定でき、検出結果において高い正確性を実現しています。
YOLOを含む物体検出技術は、自動運転車や画像診断をはじめ、施設における防犯対策やユーザー分析、異常検知などで活用可能です。今後さらなる発展や進化によって、より多くの業界や分野で浸透していくことが期待されています。物体検出技術を取り入れたシステムは、将来的なビジネスの可能性の拡大につながるでしょう。
AIsmileyではYOLO形式のアノテーションデータの作成が容易に可能なアノテーションツールやアノテーション企業も紹介しています。業界を俯瞰できるカオスマップもプレゼント中ですのでお気軽にご相談ください。
画像認識について詳しく知りたい方は以下の記事もご覧ください。
画像認識とは?AIを使った仕組みや最新の活用事例を紹介
YOLOとは、物体を検出するときに使用される代表的なアルゴリズムです。YOLOという言葉は「You Only Look Once」という英文の頭文字を取って作られました。
YOLOのメリットとして、以下が挙げられます。
YOLOの活用事例として、以下が挙げられます。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら