AIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索・資料請求サイト
TEL
MAIL
03-6452-4750

画像に写る物体を検出するAIとディープラーニングモデル

最終更新日:2021/07/30

画像に写る物体を検出するAIとディープラーニングモデル

近年のAI・人工知能技術の発達は著しく、さまざまな分野、業界でAIを導入する動きが加速しています。その中でも、画像に写る物体を検出するAIやディープラーニングモデルには大きな注目が集まっており、今後さまざまな分野で活用されていくことが期待されているのです。

では、それらの技術は具体的にどのような仕組みで成り立っているのでしょうか。今回は、画像に写る物体を検出するAIについて学ぶ上で欠かせない「一般物体認識」や「CNN (畳み込みニューラルネットワーク)」、そして「物体検出のディープラーニングモデル」などについて詳しく解説していきます。ぜひ参考にしてみてください。

■一般物体認識とは

■一般物体認識とは

一般物体認識とは、画像内に写るものをコンピューターによって認識する研究のことであり、ディープラーニング(深層学習)が登場する前から研究が進められてきた分野でもあります。これまでは、人の手によって設計した特徴量(Joint HOGやJoint Harr-likeなど)に対し、サポートベクタマシンやブースティングといった機械学習手法を適用させるのが一般的でした。しかし、この方法では精度に限界があったことから、実用化に至った例というのは多くなかったのです。

ただ、ディープラーニング技術が登場し、その技術も少しずつ発展していったことで、画像データをディープラーニングに直接入力し、特徴抽出と識別の2つを同時に最適化することが一般的になりました。それに伴い、精度も一気に向上していったわけです。

一般物体認識における問題点として挙げられるのは、「認識結果を最終的にどういった形式で出力するか」によって、「1.分類」「2.物体検出」「3.セマンティックセグメンテーション」の3つに大きく分別され、この順に難易度が上がっていくという点です。

ちなみに、一般物体認識は「教師あり学習」であるため、人の手によって設計された認識対象をもとに、「学習データ」や「教師ラベル」を準備しなくてはなりません。ここで言う「一般」とは、アルゴリズム自体が認識対象に依存していないことを指しています。つまり、データを変えることによって認識対象をコントロールできるということです。ただし、学習データに含まれていない対象に関しては、原理的に認識することができません。そのため、「何を認識すべきか」という点までは自動的に発見できないという点には注意が必要です。

その一方で、アルゴリズム自体を特定の対象に特化した形で設計してしまえば、精度を上げることは可能です。たとえば、人間の顔(輪郭)を認識させる際は、「目」「口」といったパーツの存在を前提とした上で、それらを同時に認識させることによって、精度を上げることができます。

 

●ディープラーニングによるパターン認識が証明された「Googleの猫」

●ディープラーニングによるパターン認識が証明された「Googleの猫」

一般物体認識において欠かせない「ディープラーニング(Deep Learning)」という手法が誕生した時期については、諸説あるため明らかになっていません。200年代はじめには既に論理的に確立されていたと述べている研究者もいますが、他にもさまざまな意見があるため定かではないのです。

ただし、ディープラーニングというものが「AIの学習に使える技術であること」を始めた証明したものに関しては、多くの人が「Google」と認識しています。というのも、Googleが2012年に「人が何も教えずに、AIが自発的にネコを認識することに成功した」という発表をしたことで、さまざまなWebサイトにニュースとして掲載され、大きな注目を集めたからです。実際にこの発表を見て衝撃を受けた人もいるのではないでしょうか。これは、世界中のAI開発者や学者にも大きな衝撃を与えました。

ディープラーニングでは、「膨大なデータ」「膨大な計算」という2つが極めて重要な鍵を握っています。2012年頃に、GPU(演算用チップ)などのハード的な技術改革があったことで、それまでよりも遥かに高速な計算を実現するコンピューターが生み出されたのです。

そのため、もしこの「膨大なデータ」「膨大な計算」という2本柱がなければ、ディープラーニングという「教師なし学習」によってAIが猫を自己認識する「Googleの猫」は実現されていなかったでしょう。

この「Googleの猫」は、2012年にGoogle社の研究チームが発表した研究結果です。具体的な内容としては、ディープラーニングを用いてYouTubeの動画の中から無作為に約1,000万枚の画像を学習させ、その結果AIが「猫が写っている画像」を見分けられるようになったというもの。

この研究において特に注目されたのは、約1,000万枚の画像を学習・バターン分析しているうちに、AIが画像内の特徴をパターン認識し、自発的に分類を行えるようになった点です。つまり、人が「猫」という概念を教えなくてもAIは猫を認識したのです。これは、AIが自らグループ分けを行えるようになったということですから、まさに快挙といえる出来事として大きな注目を集めました。

 

■CNN (畳み込みニューラルネットワーク) とは

■CNN (畳み込みニューラルネットワーク) とは

画像認識では、「畳み込みニューラルネットワーク」というネットワークモデルが頻繁に使用されます。このニューラルネットワークは、人間の脳内の神経回路網を表したニューラルネットワークの発展版であり、画像のピクセルデータを人間が抽象ベクトルに変換することなく、画像データのままの状態で特徴を抽出させるという特徴があります。

そんな畳み込みニューラルネットワークでは、初めに画像データの一部分にフィルターをかけて演算し、その領域のスライドを繰り返していく「畳み込み」を行って特徴マップの生成を行います。この処理を行うことで、画像が持っている局所的な特徴の抽出が可能になるのです。

そして、コンピューターは画像の特徴を繰り返し抽出して対象物の推測を行い、同時に正解データで答え合わせをしながら学習を重ねることで、画像認識の制度が向上されていきます。このような多層化されたニューラルネットワークの学習の仕組みこそが、「ディープラーニング」なのです。

現代では、さまざまな企業のサービスにおいて畳み込みニューラルネットワークが活用されています。その一例として挙げられるのは、以下のようなものです。

・画像に含まれている物や人、場所などを検知して、ラベル付けする
・人の音をテキストに変換したり、音や音声を合成したりする
・画像や動画に対して、自然言語で注釈を付ける
・自動運転車において道路の把握を行ったり、周囲の障害物を避けたりする
・テレビゲームの画面を解析して、自動プレイを実現する

 

■物体検出のディープラーニングモデル

■物体検出のディープラーニングモデル

・R-CNN

R-CNNとは、従来の物体検出モデルをCNN(画像認識モデル)に置き換えたものです。画像内にdetectorを走らせてしまうと、どうしても計算コストが大きくなってしまいます。そのため、最初に「物体があると予想できる領域を提案させる」というアプローチになっているのが特徴です。これにより、detectorは物体がありそうな領域だけを計算すればよくなるため、Windowベースモデルよりも高速化が期待できます。

そんなR-CNNは、region proposalされた画像部分に対し、CNNdetectorを回していくため、Windowベースモデルと比べてCNNを回す回数を大幅に削減することが可能です。その数字を削減できるようになったことは、大きなメリットといえるでしょう。その一方で、region proposalで用いられるのは非DNN技術の従来技術であるため、あまり精度が高くないというデメリットもあります。

・Fast R-CNN
Fast R-CNNは、名前からも分かるようにR-CNNの高速化を実現したものです。Fast R-CNNの場合、画像認識を行う際は毎回CNNを走らせる必要がありません。RegionProposalの抽出した特徴領域だけを切り出し、全結合層に与えるだけで良いのです。

そのため、画像認識のたびにCNN層も走らせていた従来のR-CNNと比べて、大幅な高速化が実現できます。たとえば、RegionProposalが1,000回あったとすれば、演算量は以下のようになります。

従来のR-CNN:CNN × 1,000 + FC × 1,000
Fast R-CNN:CNN × 1 + FC × 1,000

そのため、CNNの演算回数を1/1,000に削減することができるのです。また、Fast R-CNN
は、Multi-task lossと呼ばれる学習技術も提案しており、BBとクラス分類のネットワークを2つ同時に学習することも実現しています。

 

・Faster R-CNN

Faster R-CNN は、2015年にMicrosoftが開発した物体検出アルゴリズムです。ディープラーニングによるEnd-to-Endな実装に成功しています。そんなFaster R-CNNの流れとしては、まず初めに矩形の中身が物体なのか、それとも背景なのか(何も写っていないのか)を学習していきます。そして、検出した場所には具体的に何が写っているのかを学習していくという流れです。

Faster R-CNNの特徴としては、物体なのか背景なのかを学習していく段階において、Resion Proposal Network(RPN)というCNN構造を用いている点が挙げられるでしょう。それまでは、Selective Searchという画像処理の手法を用いていたのですが、そこをディープラーニングによって実装しているのです。この点は、画期的な部分といえるでしょう。

 

・YOLO (You Only Look Once)

YOLOとは、「Humans glance at an image and instantly know what objects are in the image, where they are, and how they interact.(人類は画像を一目見て、瞬時にそれが画像の中にある物体が何であるのか、どこにあるのか、どのように相互作用しているのかを理解する)」 というコンセプトのもとで提案された論文のことです。もともとは「You Only Look Once(人生一度きり)」という言葉の頭文字を取ったスラングであり、YOLOの著者であるJoseph Redmon氏が「You Only Look Once(見るのは一度きり)」と文字って名付けたといわれています。

End-to-end時代の先駆けともいえる存在だったFaster R-CNNは、Region Proposal Networkという「検出」を行うためのネットワークを通り、その後Classifierにおいて識別を行うという仕組みでした。そのため、検出の後に「識別」という処理を行う直列の処理構成になってしまっていたわけです。このRegion Proposal Networkがボトルネックとなって、処理速度を遅らせてしまっていました。

その点、YOLOは検出と識別という2つの処理を同時に行うことによって、この処理時間の遅延を解消することに成功しています。

 

・SSD (Single Shot Detector)

SSD (Single Shot Detector)とは、機械学習を用いた一般物体認識のアルゴリズムの一種です。ディープラーニングの技術を利用して、高スピードでさまざまな種類の物体を検知することができます。また、特定の物体を学習させ、その特定の物体を検知させることも可能です。

そんなSSD (Single Shot Detector)では、「デフォルトボックス」と呼ばれる長方形の枠が重要な役割を担います。たとえば、一枚の画像をSSDに認識させ、「その中のどこに何があるか」を予測させる場合、SSDは画像上に「形・大きさの異なるデフォルトボックス」を8732個乗せ、その枠ごとに予測値を計算していくのです。

デフォルトボックスは、それぞれの枠が「自身が物体からどれくらい離れているのか」「そこには何があるのか」という2点を予測する役割を担っています。

 

・Mask R-CNN

Mask R-CNNとは、Faster R-CNNとほとんど同じネットワークを持ちながらイメージセグメンテーションのタスクを遂行していくモデルのことです。セグメンテーションは、物体の周りにBoundingBoxを囲うのみではなく、ピクセルレベルで判定を行っていきます。

Faster R-CNNとの違いとしては、RPN結果をROIアラインレイヤによってサイズを正規化し、その後にdeconvolutionレイヤを利用して物体用のマスクを作成しているという点が挙げられます。

 

■セグメンテーションとの違い

■セグメンテーションとの違い

●セマンティック・セグメンテーション

セマンティック・セグメンテーションとは、画像のピクセル(画素)一つひとつに対し、「何が写っているのか」などのラベルを付けたり、カテゴリを関連付けたりする作業のことです。「画像に何が写っているのか、識別することによってメリットを得られる作業」において多く使用される傾向があります。そのため、現代では幅広い場面で使用されており、その一例としては以下のようなものが挙げられるでしょう。

・手書きの文字列の認識(単語や行を抽出する)
・Googleポートレートモード(前景と背景を分離する)
・YouTubeストーリー
・仮想メイク(仮想試着)
・視覚的な画像検索
・工場における製品の傷検出
・医療における画像診断(病変部分の検出等)
・自動車の自動運転(環境の把握、走行可能な経路の識別)
・衛星画像による地形の識別
・フォントの違いを比較・検出

なお、セマンティックセグメンテーションを活用したい場合には、データを準備した上で、アノテーションツールを利用していく必要があります。Anacondaなどでpython環境を用意して、「labelme Github」をインストールすれば利用可能です。

 

●インスタンス・セグメンテーション

インスタンス・セグメンテーションとは、画像上、もしくはRGB-D画像に写っている物体インスタンスの前景領域マスクを、それぞれの物体インスタンスを区別しながら推定していく問題のことです。画像のピクセルを「どの物体クラスに属するか、どのインスタンスに属するか」といった基準で分類していく方法と考えれば分かりやすいでしょう。物体ごとの領域を分割し、尚且つ物体の種類を認識していきます。

RoI(region of interest)に対して segmentation を行うため、画像内すべてのピクセルに対してラベルを振るわけではありません。

 

■画像認識の応用例

 

●自動運転

・福岡県の自動車学校に導入された「AI教習システム」

■福岡県の自動車学校で「AI教習システム」が導入|人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

2020年9月28日、福岡県大野城市の南福岡自動車学校にて自動運転技術を活用した「AI教習システム」の試乗会が行われました。このAI教習システムは、南福岡自動車学校を運営しているミナミホールディングスとティアフォー、レインフォーの3社が共同で開発したシステムで、自動運転技術を用いた運転技能検定システム、そして教習システムで構成されているそうです。

そんなAI教習システムの特徴としては、自動運転の技術を活用することによって、車両位置や周辺環境をより正確に検知することができるという点が挙げられます。これにより、これまでの指導員と変わらない精度で、ドライバーの運転技術を評価することが可能になるのです。

たとえば、運転技能検定では、教習所構内の決められたコースを走行し、AI教習システムがドライバーの運転技能を定量的に評価していきます。また、運転技能の教習においては、教習生の多くが苦手とするS字走行を、AIが音声や画像で指導しました。昨今は人手不足に伴う指導員の負担増も問題視されていますので、このような形でAIによる自動車教習が可能になれば、人手不足問題の解消にもつながっていくでしょう。

さらに、AIを活用することのメリットとして、「評価のバラつきを抑えられる」という点も挙げられます。これまでは、すべて指導員によってドライバーの運転技術が評価されていたため、評価にバラつきが生じることも少なくありませんでした。その点、AI教習システムを導入すれば、AIによる客観的評価が可能になるため、これまでのような評価のバラつきも抑えられることが期待されています。

 

・インドでも「AI教習」の試験運用が開始

自動車教習という分野において、画像(映像)に写る物体を検出するAIが活用され始めているのは、日本だけではありません。インドではすでに自動車教習でAIが活用され始めているのです。これは、Microsoftがインドで行っている「HAMS(Harnessing AutoMobiles for Safety)」というプロジェクトで、試験運用が行われています。

先ほどご紹介した福岡県の事例と同じく、自動車教習所の指導員の業務をAIが代行することを目的としたプロジェクトです。具体的な仕組みとしては、スマートフォンをフロントガラスに取り付け、前面のカメラで運転者を撮影し、背面のカメラで道路や障害物などを撮影するというもの。もちろん、ここで用いられているのは一般的なカメラだけではありません。スマホに搭載されている加速度計などのセンサーも活用することで、より高度な計測を実現しています。

これらを活用して、「車間距離は適切かどうか」「レーンの中に停められているかどうか」といった点を確認したり、「急ブレーキ」や「運転者の疲労」などのチェックを行ったりするわけです。

また、ディープラーニングの活用も想定されているため、運転手により的確なフィードバックを行うことも可能になるといいます。指導員によるチェックでは、運転者の集中力や疲労度などまでチェックするのは難しいと言わざるを得ません。そのような点もしっかりとチェックできるようになるという点は、AIを活用することの大きなメリットといえるのではないでしょうか。

なお、このシステムを利用する際は、はじめに個人IDを入力し、カメラの指示にしたがって左・右・正面を見て顔を登録する必要があります。そして、テストが開始されると受験者は車内で一人になるわけですが、カメラの顔認識機能によって常に「受験者が同一人物であるか」が確認されているため、受験者を入れ替えたりすることはできません。

 

●医療画像診断

・のど撮影でインフル診断を行うAI医療機器

AI医療機器ベンチャーのアイリス株式会社は、咽頭画像の解析をもとにインフルエンザ判定を行うAIアルゴリズムを開発し、咽頭カメラを含むAI搭載システムを「医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(医薬品医療機器等法)」に基づき、厚生労働大臣宛てに医療機器製造販売承認申請をしました。

現在のインフルエンザ検査法では、現場で実践した場合の精度が6割程度という研究報告があります。また、検査時に綿棒を鼻腔内に挿入する行為は、患者の痛みを伴うと同時に、検査時の医療者に対する飛沫感染リスクが懸念されています。

今回開発されたAIシステムは、専用カメラで撮影した患者の咽頭写真をもとに、体温などのデータと組み合わせてAI・人工知能がインフルエンザの「陽性」「陰性」を短時間で判定するものです。この仕組みには、日本人医師の宮本医師が発見したインフルエンザ濾胞(ろほう)の知見も活かされています。

2018・2019年度に、自社開発の咽頭カメラを用いて、臨床研究法における特定臨床研究として大規模な前向き研究を実施。のべ100医療機関・10,000人以上の患者の協力で、50万枚以上の咽頭画像を収集し、独自の咽頭画像データベースを構築しました。このデータベースの活用によりインフルエンザ判定AIプログラムを開発。AI解析に適した咽頭画像を撮影するための咽頭撮影専用カメラも自社で設計・開発し、既存の内視鏡などを用いずに口腔内・咽頭を鮮明に撮影することを実現しました。

 

●外観検査

・画像認識技術を利用した輸入ワインの中味自動検査機

事例①:食品業界

アサヒビールは2019年5月、NECと共同で画像認識技術を用いた輸入ワインの中味自動検査機を開発したと明らかにしました。
従来の輸入ワインの検査作業は、検査員による目視で行われてきました。たとえば、瓶を光に透かし、異物が混入していないかをチェックするなど、繊細かつ熟練した作業が求められます。そのため、現在の輸入ワインの販売数量を検査するのに1ラインあたり10人ほどの検査員が必要とされるといいます。

今回アサヒビールとNECが開発した輸入ワインの中味自動検査機は、現在の検査基準を維持しつつも画像処理技術を活用し、より検査の効率化を図るというものです。

同検査機によると、画像認識システムと同時に赤外光照明やカメラも用いて検査を行い、ワインを検査機にかけると、約10秒間瓶が傾斜したり旋回したりします。その動作によって、液体に緩やかな渦流が発生し、ラベルに隠れて見えなかったわずかな異物も発見できるというものです。

ワイン瓶のさまざまな形状や、赤ワイン・白ワインなどの液色の違いのデータをあらかじめ登録しておくことで、最適な検査パターンを適用できます。

2019年2月1日に日欧EPAが発効し、欧州連合(EU)産ワインの関税が撤廃されました。そのことで今後ますますワインの輸入量は拡大 し、同時に輸入ワインの中味検査の需要も高まると考えられます。一方で、今後労働力不足が見込まれていることから、検品作業の効率化や作業員のスキルの均一化が求められると予想されます。この輸入ワインの中味自動検査機はこうしたニーズを満たす製品として、今後国内各地の輸入倉庫に導入される計画となっています。

 

●AIドローン

・AI搭載のドローンで畑の見守りを行う葉色解析AIサービス

基本的に農業は広大な敷地で作物が育てられるため、隅から隅まで人間が目視で状況を確認するのは決して簡単なことではありません。そのため、最近ではAIを搭載したドローンを活用する事例も多くなってきています。特にレタスやトマトなどを管理された工場内で栽培する植物工場の先進国、オランダや韓国ではITを使ったスマート農業がさかんです。

もちろん、日本の農業においてもAIは積極的に活用されています。その代表例として挙げられるのが、葉色解析AIサービスの「いろは」です。「いろは」は、ドローンを活用して圃場の様子を上空から撮影し、作物の育成状況を把握することができるサービスです。ドローンで撮影した画像をAIで解析することで、収穫量の予測を行ったり、除草剤を散布すべきポイントを可視化したりすることができます。

農業において天候は極めて重要な要素となるわけですが、特に露地栽培の場合は天候が栽培環境に大きな影響を与えます。そのため、作物の育成状況を確かめるのが難しい傾向にあったのです。

しかし、「いろは」を活用すれば、ドローンで効率的に状況確認を行えるため、圃場の巡回時間を大幅に削減することが可能です。むしろ、ドローンであればより正確に育成状況を確認することができます。近年は特に人手不足が深刻化していますので、こういったサービスによって業務効率化を実現できることには大きなメリットがあるといえるのではないでしょうか。

 

●顔認証

・顔認証技術の活用によって銀行のローン申し込みを効率化

福島県を拠点とする株式会社東邦銀行は、株式会社Liquidが提供する「LIQUID eKYC」を東北地方で初めて導入し、WEBからの個人ローンの申込みにおける本人確認手続きで活用しています。スマートフォンで本人確認書類と顔を撮影するだけで、本人確認が可能になりました。

LIQUID eKYCは、顔認証やOCRなど高精度のAI・人工知能を搭載したサービスです。スマートフォンのカメラで写真付き本人確認書類と本人の容貌(顔)を撮影するだけで手続きできる迅速、低い離脱率かつセキュアな本人確認が可能となっています。本人確認手続きがオンラインで完結するため、本人確認資料のアップロードや郵送物の受け取りが不要となり、ユーザーの負担軽減や本人確認時間の大幅な削減によるスピーディーな融資サービスを提供することが可能になったのです。

 

■まとめ

今回は、画像に写る物体を検出するAIについて学ぶ上で欠かせない「一般物体認識」や「CNN (畳み込みニューラルネットワーク)」、「物体検出のディープラーニングモデル」についてご解説するとともに、画像認識の活用事例についてもご紹介しました。

サービスの向上やセキュリティ強化など、今後もさまざまな領域で活用されていくことが予想されます。また、類似した人物画像でも高精度に分類したり、ピンぼけやノイズがある画像でも高精度に検出したり、捏造された画像を的確に検出したりできるようになる可能性も十分に考えられるでしょう。ぜひこの機会に画像認識AI、物体検出AIに関する知識を深めながら、積極的に活用してみてはいかがでしょうか。

 

画像認識AIのサービス比較と企業一覧を見る

 

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら