生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2025/07/29
画像認識でよく聞く「CNN」とは?
AI(人工知能)の技術が発展したことで、近年はAIを活用する企業が増加しています。その中でも画像認識の技術はさまざまな分野で活用されており、業務効率化やセキュリティ強化など、さまざまな価値を生んでいるのです。
今回は、そんな画像認識の分野において欠かせない「CNN」の仕組みや特徴を1から詳しく解説していきますので、ぜひ参考にしてみてください。

CNNとは、「Convolutional Neural Network」を略した言葉であり、日本語では「畳み込みニューラルネットワーク」とも呼ばれています。いくつもの深い層を持ったニューラルネットワークであり、主に画像認識の分野において価値を生んでいるネットワークです。
このCNNは、「畳み込み層」や「プーリング層」といったいくつかの個性的な機能を備えた層を積み上げることで構成されているのが特徴です。現在は、さまざまな分野で活用されていることから、その注目度も高まっています。
そんなCNNが主に価値を発揮しているのは、「一般物体認識」と呼ばれる画像認識のタスクです。この分野において、優れた性能を備えるアルゴリズムとして活用されています。
ただ、注目すべき点は圧倒的な性能を備えているという点だけではありません。たとえば、転移学習によってより効率的なネットワークの学習方法を確立することに成功したことなども、この技術が大きく注目されるようになった要因の一つと言えるでしょう。
参考:Stochastic Reconstruction of an Oolitic Limestone by Generative Adversarial Networks
CNNの仕組みを理解する上では、主に「畳み込み(convolution)」と「プーリング(pooling)」「全結合層(Affine)」という3つの層について把握する必要があります。それぞれの層について、詳しく見ていきましょう。
参考:Stochastic Reconstruction of an Oolitic Limestone by Generative Adversarial Networks
一般的なニューラルネットワークの場合、層状にニューロンを配置して、その前後の層に含まれたニューロン同士に関しては網羅的に結線していきます。しかし、CNNでは、ニューロン同士の結合をうまく制限するとともに、ウェイト共有という手法によって画像の畳み込みに近い処理を、ニューラルネットワークという枠組みの中で表現しているのです。
こういった役割の層を「畳み込み層」と呼んでおり、CNNにおいては特に重要な役割を担っています。
畳み込みと同様に重要な役割を担っているのが、プーリングと呼ばれる層です。CNNにおおける「畳み込み」の役割は、画像からのエッジ抽出等の特徴抽出でしたが、「プーリング層」に関してはその抽出された特徴が「平行移動などが起きても影響を受けることがないようにロバスト性を与える」という役割を担っています。
CNNは、主に画像をカテゴリごとに分類する作業(一般物体認識)において価値を発揮するネットワークとして知られています。ただ、写真に写った動物が犬なのか猫なのかを分類したい場合には、「犬と猫が正しく識別できる能力」を持たなければなりません。
そのため、写真の犬が左端に映っているか、右端に映っているか、といった情報は特に重要ではないわけです。つまり、画像のカテゴリを分けるタスクにおいて、あまり重要ではない「位置に関する情報」を上手に削ぎ落としているのが、この「プーリング層」なのです。
全結合層は、従来のニューラルネットワークにおける基本的な要素です。入力を2次元配列として扱うのではなく、単一のリストとしてすべてを同等に扱っていきます。すべての値は、現在の画像が×なのか○なのかという点で、それぞれに票を得ますが、このプロセスにおいては完全に民主的というわけではありません。
一部の値は、仮に画像が×だったときにそれを識別する能力が他よりも優れています。そしてその一方で、○の場合の画像を識別するのが非常に得意な値もあるのです。
これらの値は、他よりもたくさんの票を得ることがでいます。そして、投票の結果はそれぞれの値、もしくはカテゴリ間において、重みや連結強度などで表現されます。
新しい画像がCNNに示された場合、その画像が下位層を通過し、最終的に全結合層に達することになります。そして、選挙によって票数の多い答えが勝利し、入力のカテゴリを宣言するという流れになるわけです。
活性化関数とは、ニューロンから次のニューロンに出力を行う際、あらゆる入力値を別の数値に変換することで出力していく関数のことです。裁判長のような役割を果たす存在とも言えるでしょう。
出された証拠をすべて確認した上で、「本件は0.93対0.07で〇(マル)」というように判決するための確率計算式だとイメージすればよいでしょう。
2択の場合、あまりイメージが沸かないかもしれません。たとえば、100種類の花の名前などを当てる必要があるシーンなどでは重宝します。
CNNには、どのような特徴があるのでしょうか。ここからは、CNNならではの特徴について、詳しく見ていきましょう。
私たち人間が物体を見るときに生じる経過としては、まず物体から反射された光が目の奥の網膜に像を結びます。そして、視神経を介して脳に刺激が与えられ、物体が何であるかを認識するという流れです。
このとき、物体の像全体を一度で把握するわけではありません。限定された領域ごとに、像をスキャンするように認識していくわけです。この限定された領域のことを「局所受容野」と呼びます。
局所受容野が受ける光の刺激は、電気信号に変換されて脳に達しします。そして、そこで視覚認識に関係するニューロンが反応するわけです。ちなみに、このニューロンには2つの種類が存在することが知られています。「単純型細胞」「複雑型細胞」と名づけられているものです。
畳み込み層は、局所的受容野だけでなく「重み共有」という工夫も行うことによって、パラメータ数の減少を実現します。重み共有は、画像が持つ「ある位置での重要な特徴に関しては、別の位置でも重要である可能性が高い」といった特徴を利用したものです。
たとえば、画像の中に犬がいるかどうかを学習するとしましょう。この場合、画像の中のさまざまな位置に犬が映っていることが想定されます。本来であれば、各位置にいる犬を別々のフィルタで学習しなくてはいけません。そのため、学習も困難になってしまうわけです。
しかし、犬がどこにいても同じように認識できるようになれば、その難易度は一気に下がります。「1つの畳み込み層の中では、1つのフィルタ(重み)を共有する」ということを実現するのが、重み共有の考え方なのです。

参考:リクルートテクノロジーズ、機械学習による画像検索を実現。色やデザインをもとに直感的に検索、精度は80%超に ~機械学習ロジックをフル活用、新たなユーザー価値を創造~
CNNの代表的な活用事例として挙げられるのは、ネイルの類似検索機能でしょう。リクルートスタイルが運営している「ホットペッパービューティー」というアプリにおいて、類似したネイルの画像を検索できる機能が搭載されています。この機能は、まさにCNNによって実現されているものです。
画像をもとに、ネイルの位置を判別した上で、カラーヒストグラムやデザインを識別していくという仕組みです。そのため、従来よりも直感的な画像の表示につながっています。
参考:A picture is worth a thousand (coherent) words: building a natural description of images
Googleが開発した「画像の説明文を自動生成する技術」においても、CNNは活用されています。その仕組みとしては、はじめにCNNの技術を活用して「画像の中の状況」について解析させます。そして、ここで得た情報をRNNに使わせることで、画像認識のためのアルゴリズムが作成したデータを、文章を作っていくことが可能になるわけです。
また、直接的にさまざまな画像を認識させ、説明文をつけることによって、より高精度の説明文を追加することが可能になります。
参考:AIによるプレゼンテーションの評価サービス 「プレトレ」がリニューアル ~感情認識AIのエモスタ社と業務提携により今後さらなる進化~
「自分のプレゼンが視聴者にどう受け取られそうか」を予測したり解析したりできる「プレトレ」というサービスでもCNNが活用されています。その仕組みとしては、プレゼン内容や話し方(言葉遣い)といった言語情報に加え、話すテンポや抑揚といった音声・音響情報を学習させることによって、14種類の評価尺度からプレゼンテーションが観衆にどう受け取られるか予測・解析していくというもの。
たとえば、スティーブ・ジョブズのプレゼンを解析すると、「Funny(面白い)」に加え、少しジョークがきついため「obnoxious(不快な)」といった項目が表示されます。また、「Informative(情報豊かな)」「Fascinating(ワクワクする)」「Ingenious(天才的な)」といった項目も表示されたそうです。
一方、ビル・ゲイツのプレゼンを解析すると、ジョブズの解析で表示された「Fascinating」や「Funny」といった項目は表示されず、「Persuasive(説得力がある)」や「Courageous(勇敢な)」といった項目が表示されました。
RNNとは、「Recurrent Neural Network(リカレントニューラルネットワーク)」を略した言葉であり、日本では「回帰型ニューラルネットワーク」などとも呼ばれています。文章などの連続的な情報を利用できる点が特徴です。最近では、Googleの「画像の説明文を自動生成する技術」のように、CNNにRNNを組み合わせるケースも多くなってきており、ますます活用の幅が広がっている状況です。今後、どのような形でCNNが価値を発揮していくのか、ますます目が離せません。
今回は、CNNの仕組みや特徴を1からご紹介しました。既にさまざまな分野でCNNが活用されていることがお分かりいただけたのではないでしょうか。
なお、以下の記事ではRNNについて詳しくご紹介していますので、こちらもあわせてご覧ください。
自然言語処理で一躍脚光を浴びたRNNとは?初心者に優しく解説!
CNNとは、「Convolutional Neural Network」を略した言葉であり、日本語では「畳み込みニューラルネットワーク」とも呼ばれています。いくつもの深い層を持ったニューラルネットワークであり、主に画像認識の分野において価値を生んでいるネットワークです。
CNNが主に価値を発揮しているのは、「一般物体認識」と呼ばれる画像認識のタスクです。この分野において、優れた性能を備えるアルゴリズムとして活用されています。
CNNの仕組みを理解する上では、主に「畳み込み(convolution)」と「プーリング(pooling)」「全結合層(Affine)」という3つの層について把握する必要があります。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら