画像認識とは?AIを使った仕組みと最新の活用事例
最終更新日:2025/01/08
近年は、さまざまな分野でAI・人工知能が積極的に導入され始めています。その中には「AIを用いなければ実現できない技術」も多く、もはや私たちにとってAIは欠かせない存在と言っても過言ではありません。
そんな中、AIを活用したサービスとして「画像認識」に注目が集まっているのをご存知でしょうか。今回は、この「画像認識」の仕組みについて詳しく解説していくとともに、活用事例もご紹介していきますので、ぜひ参考にしてみてください。
画像認識とは?
「画像認識(Image Recognition)」とは、画像に映る人やモノを認識する技術です。「画像に何が写っているのか」を解析します。画像認識はパターン認識の一種で、近年は深層学習(ディープラーニング)という手法によってさらに精度が向上してきており、多様な分野での導入が進んでいます。
人間の場合であれば、過去の経験をもとに「画像に写っている人(物)が誰(何)なのか」を判別することが可能です。しかし、コンピューターには人間のように「蓄積された経験」が存在しないため、経験を活かして画像に写っている人(物)を認識するという作業はできませんでした。
ただし、AIを活用すれば、コンピューターも数多くの画像データから人(物)の特徴などを学習できるようになります。そのため、学習データをもとにして「画像に写っている人(物)の識別」を行えるようになるのです。
この画像認識の技術は、すでにさまざまな分野での活用が進んでいます。例えば、防犯の分野では、IoTと組み合わせて「防犯カメラの映像から人物を割り出すこと」が可能になります。そのため、従来よりも犯人の特定を早めたり、未然に何かしらの事件を防いだりするわけです。
画像認識の歴史
画像認識は、ディープラーニング(深層学習)の登場によって注目を集めるようになったわけですが、その歴史は意外と古く、技術自体も昔から存在しています。最近では、画像認識に「機械学習」というパターン認識技術が当たり前のように用いられており、そこにディープラーニングも加わることで高い精度での画像認識が実現可能になりました。
しかし、コンピューターが画像を認識するのは決して簡単なことではありません。照明の明るさ、ピントのずれ、対象物の向きなど、さまざまな影響を受けやすいからです。では、どのような経緯で画像認識の精度は高まってきたのでしょうか。歴史とともに振り返ってみましょう。
最も古い画像認識は「バーコード」
画像認識技術として最も古いといわれているのは、1940年代に活用され始めた「バーコード」です。バーコードとは、バーとスペースの組み合わせによって、数字や文字を機械が読み取れるように表現したものを指します。さまざまな商品のパッケージに記載されているので、多くの方がすぐにイメージできたのではないでしょうか。そんなバーコードは、バーコードスキャナと呼ばれる光学認識装置によって読み取ります。
これを画像と呼ぶにはあまりにもシンプルすぎるかもしれませんが、画像のパターンから情報を読み取っているという点を踏まえれば、立派な画像認識といえるでしょう。
画像の比較を行う「テンプレートマッチング」
これまでの画像認識では、テンプレートマッチングを使用するのが一般的とされていました。テンプレートマッチングとは、画像に映っている物体の位置を検出する「画像検出」という技術のひとつです。この方法では、検出したい物体の画像そのものをテンプレートとして、対象画像の一部分との類似性を、その領域をスライドしながら比較していきます。これによって、「対象となる物体が画像内のどこに映っているのか」「いくつ映っているのか」といった情報を抽出することが可能になるわけです。
しかし、この方法は決して完全なものではなく、照明による変化が大きい場合など、テンプレート画像からの変化が激しいケースではどうしても認識率が下がってしまう傾向にあります。また、認識したい対象物ごとにテンプレートが必要となるという点も、大きな課題だったといえるでしょう。
画像認識の精度を飛躍的にアップさせた「ディープラーニング」
2000年代に入ると、計算機の技術が発展したことで、データの処理速度も大幅に向上していきました。そして、この変化によって、大量の画像データを用いた機械学習による画像認識が実現可能となったのです。画像認識技術は、これまでのような人手によるルールやモデル構築といったものから、パターン認識へと移行していったわけです。
さらに2012年には、ディープラーニングが登場したことで世界に大きなインパクトを与えました。ILSVRCという画像認識コンテストにおいて、カナダ・トロント大学のヒントン教授が率いるチームが開発した「AlexNet」が画像認識に対して初めてディープラーニングを活用し、前回のコンテストの優勝記録の誤り率から4割ものミス削減に成功したのです。
また、その一方ではGoogleが2012年に「ディープラーニングによってAIが自動的に猫を認識する技術」を発表し、大きな注目を集めました。このように、ディープラーニングは画像認識という領域において大きな成果をあげており、その能力の高さも世界に見せつけています。そして、2016年にはアルファ碁が登場したことで第三次AIブームが到来し、最近では産業界でも実用化するケースが多くなってきている状況です。
画像認識の種類
- 画像に写る代表的な物体を出力する「物体認識」
- 画像に写る物体を識別し、位置を特定する「物体検出」
- 画像に写った物体の説明文を出力する「画像キャプション生成」
- 画素ごとに識別を行う「セグメンテーション」
- 人間の顔を特定する「顔認識(顔認証)」
- 画像に写る数字や文字を識別する「文字認識(OCR)」
コンピュータ上で行われる画像認識は、人間の脳とは仕組みが異なります。人間のように「視覚」で認識するのではなく、オブジェクトの抽出やピクセルデータの処理といった複雑な処理が必要になるのです。
そんな画像認識は、画像の種類によって対象物の「形状」「色」「複雑さ」「データ数」などで差が生じることから、画像認識はいくつかの種類に分けられています。これはつまり、扱う画像データによって技術領域を分類しているということです。では、具体的にどのような種類が存在するのでしょうか。ここからは、画像認識の種類と機能を見ていきましょう。
画像に写る代表的な物体を出力する「物体認識」
(参照:ImageNet Classification with Deep Convolutional Neural Networks)
物体認識(物体識別)とは、対象の物体と同一の物体が画像内に存在するかどうかを検証する技術のことです。画像に映っている物体のカテゴリを特定するなど、画像に含まれている物体の情報を抽出することができます。この物体認識においては、「物体検出」という技術が重要視されており、物体認識と物体検出はそれぞれ区別して使用されます。
画像に写る物体を識別し、位置を特定する「物体検出」
(参照:You Only Look Once: Unified, Real-Time Object Detection)
物体検出とは、画像内に含まれる対象の物体の位置を検出するための技術です。物体認識とは実行方法が異なりますが、対象となる物体の特徴を抽出する際に、その物体の「位置」も重要になるため、物体認識と併用されるケースが多いです。
画像に写った物体の説明文を出力する「画像キャプション生成」
(参照:Show and Tell: A Neural Image Caption Generator)
画像キャプション生成とは入力した画像内に何が映っていて、映るものがどのような状況かを判別し説明文を出力するものです。CNNと自然言語処理(RNN)を組み合わたもので、Microsoftが開発する視覚障碍者向けのカメラアプリ「Seeing AI」などで活用されています。
画素ごとに識別を行う「セグメンテーション」
セグメンテーションとは、画像のピクセル(画素)ごとに「どの物体クラスに属するか」という基準で分類していくタスクを指します。画像全体を対象にするセマンティックセグメンテーション、物体検出した領域を対象にするインスタンスセグメンテーション、画像全体を対象に個々の物体はそれぞれ分離して背景などはひとまとめにするパノプティックセグメンテーションなど様々な手法があります。
人間の顔を特定する「顔認識(顔認証)」
顔認識(顔認証)とは、人間の顔画像から目立つ特徴を抽出していく技術です。この技術を利用することによって、顔の識別を行ったり、似た顔の検索を行ったり、顔のグループ化を行ったりすることができるようになります。
また、最近では人間の表情から感情を読み取る「感情認識」の研究も進められている状況です。
画像に写る数字や文字を識別する「文字認識」(OCR/ICR)
文字認識(OCR)は、紙に書かれている手書きの文字や、印刷された文字などを判別する技術です。この技術を用いれば、画像内のテキストを抽出することができるようになります。文字認識は古くから研究が行われている分野ですが、最近では翻訳技術と組み合わせたシステムが登場するなど、さまざまな利用用途が存在する技術でもあります。
ディープラーニングを利用した画像認識の仕組み
画像認識では、CNN(畳み込みニューラルネットワーク)というネットワークモデルが頻繁に使用されます。このニューラルネットワークは、人間の脳内の神経回路網を表したニューラルネットワークの発展版であり、画像のピクセルデータを人間が抽象ベクトルに変換することなく、画像データのままの状態で特徴を抽出させるという特徴があります。そんな畳み込みニューラルネットワークでは、初めに画像データの一部分にフィルターをかけて演算し、その領域のスライドを繰り返していく「畳み込み」を行って特徴マップの生成を行います。この処理を行うことで、画像が持っている局所的な特徴の抽出が可能になるのです。
そんな畳み込みニューラルネットワークでは、初めに画像データの一部分にフィルターをかけて演算し、その領域のスライドを繰り返していく「畳み込み」を行って特徴マップの生成を行います。この処理を行うことで、画像が持っている局所的な特徴の抽出が可能になるのです。
そして、コンピューターは画像の特徴を繰り返し抽出して対象物の推測を行い、同時に正解データで答え合わせをしながら学習を重ねることで、画像認識の制度が向上されていくわけです。このような多層化されたニューラルネットワークの学習の仕組みを「ディープラーニング」と呼んでいます。
超解像と呼ばれるノイズの多い画像を高解像度にする手法にはGAN(敵対的生成ネットワーク)と呼ばれる深層生成モデルが利用されています。
Pythonを使った画像認識
近年、画像認識などをはじめとするAIのプログラミング言語は、Pythonが主流になってきています。Pythonとは、少ないコードで簡潔にプログラムを書くことができるという特徴があり、専門的なライブラリが豊富にあることも魅力のひとつです。そんなPythonは、コードを書きやすく、かつ読みやすくするために生まれたプログラミング言語でもあるため、誰が書いても同じようなコードになります。つまり、汎用性のあるプログラミング言語であるということです。
また、PythonはWeb上にも数多くのライブラリが存在しています。既存のライブラリを活用することによって、より効率的に自分が作りたいプログラムを作成できるのは大きなメリットといえるでしょう。ちなみに、Pythonによって開発されたアプリケーションの代表例としては、YouTube、Instagram、DropBox、Evernoteなどが挙げられます。
なお、Pythonは機械学習を用いたソフトウェアの開発分野で多く活用されており、初めて機械学習を学ぶ人でも習得しやすい傾向にあるため、機械学習を学ぶ際の「基本のプログラミング言語」とも言われています。
その中でも「Pythonの画像処理100本ノック」は多くの人に利用されており、集中的に機械学習を学ぶことができるものとして重宝されています。Pythonの100本ノックには、ライブラリにフォーカスしたものやデータ分析などの目的からまとめたものなど、さまざまな種類があるため、自身の目的に合ったものを選択すると良いでしょう。
画像認識モデル構築の方法
実際に画像認識モデルを構築していくためには、まず適切な方法と手順を把握しておくことが重要になります。ここからは、画像認識モデル構築の方法を、手順ごとに詳しくみていきましょう。
1.データ収集・加工
機械学習を行わせる上では、データの収集・加工が必要不可欠です。大量の画像データをコンピュータに読み込ませることで、初めて機械が学習を行えるため、最も重要な工程といっても過言ではありません。
また、単純に大量の画像データを収集すれば良いわけではなく、データの「質」にもこだわる必要があります。「量」と「質」のいずれかが欠けてしまうと、理想的な画像認識の精度を実現できなくなってしまうため、注意しましょう。
2.ディープラーニングモデルの定義
データの収集や加工を終えたら、次にディープラーニングモデルの定義を行います。Tensorflow(Keras)を用いて画像認識モデルを構築する場合であれば、dataset.npyという数値配列からなるトレーニング・テストデータの作成後、そのdataset.npyを読み込み、畳み込みニューラルネットワーク(CNN)のモデルを学習・評価していきます。
3.実装・検証
データの前処理を終えたら、画像認識モデルの実装・検証を行っていきます。画像認識モデルには、得意な分野・不得意な分野が存在するため、目的に合わせて適切なモデルを選択することが大切です。画像認識を得意とするモデルを選択したら、適用するパラメータを設定していきます。
そして、モデル構築を終えたら検証を行いましょう。たとえば、画像データを「学習用」「テスト用」に分類し、テスト用の画像を想定通りに読み取ってくれるかどうかを評価していくことで、改善点を明確化しやすくなります。
4.再学習
検証結果を踏まえて、必要に応じた再学習を行うことも重要な作業の一つです。浮き彫りになった改善点を解消していくことで、より理想的な画像認識モデルを構築できるようになるため、検証と再学習は必要不可欠な工程といえるでしょう。
画像認識を使った無料アプリ・フリーソフト
(参照:「AI STYLIST – EARTH(アース)の髪型診断」をApp Storeで)
画像認識は私たちにとって身近な存在になりつつあり、最近では画像認識を使ったフリーソフトや顔認証を用いた無料アプリなどもリリースされています。その一つとして挙げられるのが、「AI Stylist」というアプリです。
AI Stylistは、ヘアサロン「Hair&Make EARTH」を展開している株式会社アースホールディングスが提供しているAI搭載型のアプリです。この「AI Stylist」は、画像認識技術を用いることで、ユーザーに最適な髪型をアプリが提案してくれるというもの。その使い方は、ヘアスタイルなどを選択して自分の顔写真をスマートフォンで撮るだけなので、とても簡単です。
2020年3月にiOS版が先立ってリリースされ、すでにダウンロード数が5万を突破するなど、多くの注目を集めています。2020年8月にはAndroid版もリリースされたため、今後さらに多くのユーザーが活用するようになるのではないでしょうか。
この「AI Stylist」は髪型の提案だけではなく、似ている芸能人を判定する機能なども備わっています。比較対象はモデルや歌手、タレントなどで、男性557人、女性949人のデータが用意されているそうです。
今後は、これらの機能に加え、髪型を試すことができる「ヘアスタイルシミュレーション」という機能も実装される予定だといいます。
まずは無料で画像認識技術を体験してみてはいかがでしょうか。
最新の画像認識の活用事例
最近ではさまざまな分野で画像認識が活用されていますが、具体的にどのような場所で画像認識が活用されているのでしょうか。ここからは、最新の画像認識の活用事例についてご紹介していきます。
文字を認識し英語や中国語に翻訳
Google翻訳をはじめとする機械翻訳は、多くの方が一度は利用したことがあるのではないでしょうか。この機械翻訳は、自然言語処理によってできることのひとつです。「自然言語」とは、私たちが日常的な会話で使用している言語のことだと捉えていただければ問題ありません。
ちなみに、自然言語と相反する言語としては「コンピューター言語」というものがあり、「1+2+5」といったような一通りの解釈しか存在しないようなものは、コンピューター言語に該当します。
一方の自然言語には、複数の解釈ができるケースも少なくありません。例えば、「A君は自転車で帰宅中のB君を追いかけた」という文章があったとします。この場合、「A君は自転車に乗り、帰宅中のB君を追いかけた」という解釈をすることもできますし、「A君は、自転車に乗って帰宅しているB君を追いかけた」という解釈をすることもできるわけです。
このように、自然言語は複数の解釈ができることから、これまでは適切な形で処理を行うことが難しいとされてきました。しかし、近年はAI(人工知能)の技術が発展したことにより、非常に高い精度で自然言語処理を行えるようになってきているのです。そして、最近では音声合成や文字認識と組み合わせたサービスも多くなってきています。
例えば、「あなたは将来、進歩した自然言語処理の技術を実感することになるでしょう」という日本語を英語に訳した場合には、「In the future, you will experience advanced natural language processing techniques.」となります。
しかし、この「In the future, you will experience advanced natural language processing techniques.」という文章をもう一度和訳すると、「将来的には、高度な自然言語処理技術が体験できます。」という文章になるのです。
私たち日本人は、一般的な会話の中で「あなたは~するでしょう」といった言葉の使い方をするケースは多くありません。Google翻訳はそれを理解した上で、より一般的な表現に近い言葉に置き換えることができているのです。これは、AIの技術によって的確に文脈解析と意味解析が行われ、適切な解釈のもとで自然言語処理が行われているからに他なりません。
また、Googleの翻訳アプリでは、カメラを用いて文章を映すだけで、別の言語に自動で翻訳してくれる機能も備わっています。これはまさに、画像認識技術によって実現されているものです。画像認識を活用すれば、さまざまな言語もより簡単に翻訳できるようになるため、将来的には言語の壁もどんどん少なくなっていくでしょう。
画像認識で画像検索の精度が向上
Eコマースの世界的大手、中国のアリババ・グループは、早くからオンライン通販サイトに画像認識技術を取り入れています。
アリババの通販サイトである「淘宝(タオバオ)」や「天猫(Tmall)」では、欲しい商品の写真をアップロードすると、サイトに掲載されている膨大な商品の中から類似のものを検索することが可能です。
アリババによると、Eコマースプラットフォームに関するユーザーのクレームは大きく2つに集約されるといい、ひとつは「欲しいアイテムを見つけるのが困難」、もうひとつは「アイテムが豊富すぎて混乱する」というものだといいます。そのため、自分の欲しい商品写真をアップロードするだけで類似商品を探し出すことができる画像検索は、こうしたユーザーのクレームを解決する手段として極めて有効なものといえるでしょう。
ちなみに、この技術を支えているのは、機械学習とディープラーニングを活用したアリババ独自の画像検索エンジン「Image Search」というものです。アリババは2009年に画像認識や文字認識を研究する研究所、図像和美研究団を自社内に設立しており、人工知能による商品検索アルゴリズムを開発しています。
PCの操作も画像認識で自動化(uwsc)
VBAを用いて、Excel作業をマクロ実行で効率化することは一般的ですが、画像認識を活用すれば「特定の画像が現れたらその画像を自動でクリックする」といったPC操作の自動化も可能になります。「UWSC」というパソコンのキーボード・マウス操作を自動化するソフトを使えば、PCによる画像の自動クリックを実現可能です。
複雑な自動化処理を行うためには知識と経験が必要になりますが、普段行なっている程度の単純な作業であれば、比較的簡単に自動化できます。この「UWSC」を用いた自動化も、比較的簡単に設定できますので、画像認識による自動クリックを実現したい方は、ぜひ試してみてはいかがでしょうか。
画像認識を用いた外観検査で部品の不良品対策
外観検査AIカオスマップを公開!製造業で導入進む104サービスをまとめました
画像認識技術を活用すれば、製造業などの外観検査の自動化や高精度化が可能になり、より高い精度で部品の品質を維持できるようになります。画像認識を用いた外観検査の仕組みは、以下の通りです。
検査対象となる画像の取得
検査対象が静止状態の場合には写真データを活用し、検査対象が動いている場合には撮影データを活用します。取得する画像の精度は、自動検査の精度にも大きな影響を与えるため、検査対象として相応しい「高精度の画像」を撮影することが重要です。
画像処理
検査対象に合わせて適切な画像処理を施していきます。目的に合わせて適切な情報を抽出できるよう、画像データをフィルター処理するのが一般的です。さまざまな処理方法が存在しますが、代表的なものとしては「ノイズ除去」「明るさ調整」「エッジ強調」「コントラスト調整」などが挙げられるでしょう。
異常項目の特定
取得した画像をもとに、検査対象のどこに、どのような異常項目が存在しているのかを自動で特定していきます。一般的な外観検査システムの場合、「色」「周囲との色の違い」「大きさ」「形」といったモデルルータをもとに、検査対象項目に応じた判定ロジックを用いて特定していくという流れです。
物流会社の検品・入庫作業を効率化
SCM改革!AIを活用したサプライチェーン最適化カオスマップ!小売・物流・製造業必見!
物流には、物を移動させる業務だけでなく、そのプロセスとなる包装や保管といった業務も含まれます。そのため、倉庫への入庫作業なども物流に該当するわけです。
その倉庫への入庫作業においては、これまで人の目で商品のパッケージやタグなどを確認しなければなりませんでした。そして、その商品名や型番などを倉庫管理システムに入力する作業も、人が行わなければならなかったわけです。
しかし、最近ではAIの画像認識技術を活用したシステムが積極的に導入され始めており、この一連の業務の大幅な効率化を実現できるようになりました。具体的には、人間による目視とシステム入力作業を自動化させることで、検品業務を半分以下の時間で実施できるようになりました。
また、倉庫や物流センターでは、出荷する荷物や商品の仕分けなども日々行われているわけですが、場所によっては荷物の種類が多岐に渡るケースも少なくありません。そのような倉庫では仕分け作業が複雑化するため、どうしても人の手で仕分けを行わなければならない状況でした。
しかし、最近では画像認識技術とディープラーニングを活用する企業も増えてきており、複雑な仕分け作業も自動化させることでコスト削減や人材不足の解決する手段のひとつになっています。
画像認識で監視カメラを管理
画像認識技術は、セキュリティ強化という側面でも積極的に活用され始めています。その具体的な事例としては、以下のようなものが挙げられるでしょう。
車両種別の判別
車両種別の判別では、AIを活用し、防犯カメラに写っている自動車の画像から車種を割り出していきます。
各メーカーの車の画像データをAIに学習させることで、より高い精度での判別が可能になるそうです。多少画像が不鮮明であっても車のタイプや車種、年式などを判別できるようになるという点は、画像認識AIを活用するからこそ得られるメリットといえるでしょう。
大規模イベントでの不審点の抽出
大規模なイベントなどでは、どうしても人の目が届かないエリアが出てきてしまうことがあります。そのため、画像認識AIを搭載した防犯カメラを活用してイベント会場全体を監視することで、イベントでの不審点の抽出を高精度で実行することが可能になるわけです。
実際、2019年には警視庁による実証実験も行われており、その実験では会場内外に設置された防犯カメラが捉えた映像の中から不審と思われる点を自動的に探り、発見していくという検証が行われました。この実験は、コンサートやスポーツ大会、会議といった大規模なイベントを想定しており、テロリストが取ると考えられる行動の特性についてもAIに学習させていくそうです。また、この実験では過去に欧米で発生したテロのデータも利用していくことを検討しているといいます。
最近ではAIの処理をクラウドではなくデバイスで行うエッジAIの活用も進んでいます。
人数をカウントして密を回避
(参照:アースアイズと日商エレ協業、AIで3密を防ぐ!「ソーシャルディスタンスカメラ™」を販売|PR TIMES)
昨今は新型コロナウイルスの感染拡大に伴い、ソーシャルディスタンスが重視されるようになりました。そのような中で、いわゆる「3密」を避けるための手段に画像認識が有効活用され始めています。その事例として挙げられるのが、アースアイズ株式会社(本社:東京都港区)と日商エレクトロニクス株式会社(本社:東京都千代田区)が販売している「ソーシャルディスタンスカメラ™」です。
この「ソーシャルディスタンスカメラ™」は、AIカメラの3D空間認識技術(画像認識技術)によって施設内外の人数を認識したり、人と人の距離を認識したりして、混雑レベルを可視化するというものです。「ソーシャルディスタンスカメラ™」が導入されている施設の利用者(顧客)は、スマホなどから混雑レベルをチェックすることもできます。そのため、施設内の混雑状況を把握した上で訪問するかどうかを判断できるため、施設の利用者にとっても非常に大きなメリットがあるといえるでしょう。
とくにスーパーマーケットやドラッグストア、コンビニエンスストアなど、生活に欠かせない日用品が販売されている店舗に関しては、「絶対に3密を避けたい」と考えている人でも訪れなければならないケースがあるかもしれません。そのような場合、タイムリーに混雑状況を把握できる仕組みが存在するかどうかという点は、その店舗や施設への信頼度にも大きな影響を与えてしまう可能性があるでしょう。
ちなみに、「ソーシャルディスタンスカメラ™」の具体的な仕様イメージとしては、300坪ほどの小売店であれば、メインとなる通路3箇所程度に「ソーシャルディスタンスカメラ™」を設置することで人の密集レベルを可視化することが可能になります。設置されたAIカメラが人と人の距離のデータを解析して、ホームページや責任者のスマホなどに「密集レベル」として通知するという仕組みです。
また、出入り口にもAIカメラを設置しておけば人数カウントを行うことができるため、混雑予測なども高精度に予測することができます。最近では、この人数カウントを効率的に行えるカウントアプリも多くなってきている状況です。これまで3密になりがちだった小売店などは、顧客が安心して来店できる環境を整える必要がありますので、密集レベルを可視化できるAIカメラには大きなメリットがあるといえるのではないでしょうか。
属性分析や行動解析
属性分析や行動解析といった観点でも、画像認識は有効活用されています。その代表例として挙げられるのが、JR東日本駅構内のオンライン接客です。
これは、Idein株式会社が提供するAIカメラ「Actcast」と、シスコシステムズ合同会社が提供するWeb会議システム「Webex」を組み合わせることで、オフラインとオンラインが融合した新たな購買体験が実現できるというもの。
具体的には、AIカメラを活用してJRE MALL Meetに来店する人数を把握したり、顧客の属性分析を行ったり、JRE MALL Meetに設置されているサイネージや商品の視認率の計測を行ったりします。
また、新たな取り組みとして、ビジネスチャットツール「Slack」と連携したことでも大きな注目を集めました。顧客が店舗に来店すると、オンライン接客の担当者にSlackで通知が飛ぶ仕組みであり、よりスムーズなオンライン接客が実現できます。
画像認識を活用した無人レジ
昨今は少子高齢化に伴う人手不足が深刻化していることもあり、スーパーやコンビニでは「無人レジ」が少しずつ導入され始めています。その一例として挙げられるのが、大手コンビニチェーンのローソンです。
ローソンでは、画像認識AIの活用によって無人レジ化を進める取り組みを行っています。AIに「来店した客の属性」「購入した商品」「手に取った商品」などの情報を学習させることで、発注や在庫管理の精度向上につなげていくのが狙いです。また、収集したデータをマーケティング分析に活用していくことも可能になるといいます。
店内の案内に関しては「デジタルサイネージ」と「コンシェルジュロボット」によって行われ、おすすめ商品の案内などもロボットに任せることが可能になるそうです。
現段階では一部のローソンでしか導入されていませんが、近年はコンビニ業界の人手不足が問題視されていますので、今後全国的に無人レジ化が広がっていく可能性も少なくないでしょう。
ローソンの他にも画像認識を活用したAIレジの普及が進んでいます。
自動運転は人や物体を検知
自動運転とは、その名の通り「自身で操作を行うことなく自動車が勝手に走ってくれる技術」のことです。自動車に乗り込み、搭載されているAIに目的地を告げるだけで、自動車が勝手に出発してくれるので、人間がハンドル操作を行う必要はありません。
とはいえ、現時点ではまだ自動運転車が多く普及されているわけではないため、「自動運転車なんて不安で仕方ない」と思われる方も多いでしょう。確かに自動運転技術は決して完璧なものではなく、死亡事故を起こした事例も存在します。しかし、人間による運転と比べれば、はるかに安全なものになっているのです。
運転席に座った状態の人間の視野にはいくつかの死角が存在するため、その部分を確実に把握することはできません。もちろんドアミラーやバックミラーを使ってある程度の死角を解消することはできますが、それでも視認できない部分が多数あるのです。
では、完全には見えていない部分があるにも関わらず、なぜ大半の人は自動車を走らせることができているのでしょうか。それは、「その場所が死角になる前に『なにもないこと』を把握(記憶)しているから」に他なりません。つまり、若干ではあるものの、過去の情報を頼りに運転しているということです。
一方の自動運転車は、センサーや画像認識AIなどによって自動車周辺の情報をリアルタイムに把握しながら走行します。自動車周辺に障害物が存在しないかどうか、いわばリアルタイムで目視しながら走行しているわけです。当然、記憶を頼りに運転する場合と目視しながら運転する場合では、後者の方が安全性は高くなります。
何より、人間は見ている方向以外の視覚情報を拾うことはできませんが、自動運転車はセンサーや画像認識によって全方向の視覚情報を拾うことができるのです。こういった点を踏まえれば、言うまでもなく自動運転車のほうが高い安全性であることがお分かりいただけるのではないでしょうか。
SNSマーケティングにも画像認識を応用
最近では、SNSマーケティングにも画像認識技術が積極的に活用され始めています。SNSマーケティングへの活用と言われてもあまりイメージが湧かないかもしれませんが、一例としては「ユーザーデータの抽出による分析」が挙げられるでしょう。
これまで、SNSマーケティングにおいて分析をする際は、テキストからさまざまな分析を行っていくのが一般的でした。しかし、画像認識技術を活用すれば、テキストだけでなく画像や動画からもさまざまな情報を得ることが可能になります。また、メインの被写体だけでなく、背景に映り込んだ景色や別の被写体データなどからもユーザーデータを抽出できるようになるため、より細かな分析を行えるようになるのです。
より細かなターゲッティングを行いたい企業にとって、画像認識技術を用いたマーケティングは有効なものといえるのではないでしょうか。
画像認識で未来のお肌をシミュレーション
東京都品川区に本社を置くオルビス株式会社では、現在の肌状態やお手入れ習慣から未来の肌状態を予測して、いま必要なお手入れ方法を提案する「AI 未来肌シミュレーション」というサービスを提供しています。このサービスには、東京都品川区に本社を置くフューチャーアーキテクト株式会社の深層学習、画像認識技術が活用されています。
この「AI 未来肌シミュレーション」は、店舗に設置されているオルビス社独自のスキンチェック機やスマホを活用してAIが現在の肌状態を分析し、10項目の肌スコアを測定するというもの。そして、現在のお手入れ状況や生活習慣などをもとに、5年後、10年後、20年後の肌を予測するという仕組みです。
複雑な美容理論を学習しているため、20兆以上の評価パターンから一人ひとりの肌トラブル進行パターンを導き出し、深層学習による顔画像生成によって未来の肌をシミュレーションできるという点は大きな特徴といえるでしょう。
画像認識の未来
今回は、画像認識の仕組みや活用事例について詳しくご紹介しました。さまざまな分野で画像認識が活用され始めており、これまで以上に高い精度での「分析」「予測」「効率化」といったものが実現できていることがお分かりいただけたのではないでしょうか。
最近では、カメラと併用することで人間以上の3D(三次元)物体認識を行える「LiDAR」、画像認識や音声認識などを複合的に処理することができる「マルチモーダル」なども実現され始めており、ますます技術レベルは向上しています。
こういった点を踏まえると、今後はよりさまざまな業界で画像認識技術が導入されていくことが予想されます。画像認識技術によってこの社会にどのような変化が生まれるのか、ますます目が離せません。
AIsmileyでは、画像認識サービスの利用料金・初期費用・無料プラン・トライアルの有無などを比較検討することができるカオスマップを無料でお配りしています。より最適なサービスを選択するための比較検討を簡単に行うことができますので、画像認識サービスの導入を検討の際は、ぜひお気軽にご活用ください。
画像認識関連のニュース一覧
2024/12/13
2024/12/9
2024/12/5
2024/11/5
2024/10/30
2024/10/24
2024/10/10
2024/10/1
2024/9/30
2024/9/25
2024/9/20
2024/9/11
2024/9/10
2024/9/5
2024/9/4
2024/9/3
よくある質問
画像認識のはじまりは?
画像認識技術として最も古いといわれているのは、1940年代に活用され始めた「バーコード」です。バーコードとは、バーとスペースの組み合わせによって、数字や文字を機械が読み取れるように表現したものを指します。
画像認識技術はどんなことに使われている?
身近な例を挙げると、 無人レジ、車の自動運転、Instagramなどの製品に使われています。
画像認識に使用されるプログラミング言語は?
画像認識などをはじめとするAIのプログラミング言語は、Pythonが主流になってきています。 Pythonとは、少ないコードで簡潔にプログラムを書くことができるという特徴があり、専門的なライブラリが豊富にあることも魅力のひとつです。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら