ロジスティック回帰分析とは?特徴や活用シーンを解説
最終更新日:2024/03/04
インターネットの普及やIT技術の進化により、さまざまなデータの入手が可能になっています。しかし、データを収集するだけで上手く活用できていないケースも多いのではないでしょうか。ビジネスにデータを活用するには、適切な分析方法の理解が欠かせません。
本記事では、数あるデータ分析方法のなかでも、近年注目を集めているロジスティック回帰分析について、概要から活用シーンや活用する際の注意点などについてお伝えします。収集したデータの活用方法にお悩みの際はぜひ、参考にしてください。
データマイニングについて詳しく知りたい方は以下の記事もご覧ください。
データマイニングの手法とは?膨大なデータをAIを使ってデータ分析
ロジスティック回帰分析とは
近年、ビジネスシーンにおいて注目を集めるロジスティック回帰分析とはどのような分析手法なのでしょう。ここでは、ロジスティック回帰分析の特徴、重回帰分析との違いについてお伝えします。
ロジスティック回帰分析の特徴
ロジスティック回帰分析とは、多変量解析の一つで、ある特定の事象が起きる確率を分析するものです。
具体的には、複数の価格帯、複数のカラー、ネット・実店舗など販売箇所などの要素から顧客がもっとも商品を購入する可能性が高い要素を分析する、機能限定版の無料試用ができるシステムで、限定する機能の内容によって購入する可能性が変わるかどうかを分析するといったことが可能です。
また、マーケティング以外にも日常生活から見る病気になる確率、気象観測などさまざまな場面でロジスティック回帰分析は利用されています。
ロジスティック回帰分析の最大の特徴としては、エクセルのような表計算ソフトで一定の訓練を積めば比較的容易に分析作業が行える点です。データアナリストやデータサイエンティストのような専門家ではなくても分析が行えることも、大きな注目を集める理由の一つといえるでしょう。
オッズとオッズ比
ロジスティック回帰分析の結果を判断するのに欠かせないのがオッズとオッズ比です。オッズとオッズ比は、それぞれの機能がどれだけ商品の影響を与えているかを見るためのものです。
たとえば、あるシステムの無料試用版を提供する際、30人を対象にオプションとしてA、B、Cの3つの機能から1つを自由に選択してもらいます。その結果、どれを選択した人がもっとも購入につながる可能性が高いかを計算してみましょう。なお、購入の有無は目的変数、A、B、Cそれぞれの機能は説明変数と呼びます。
Aを選択して購入した人の割合 | Bを選択して購入した人の割合 | Cを選択して購入した人の割合 |
15人中8人が購入 | 7人中6人が購入 | 8人中3人が購入 |
この場合、それぞれのオッズは次の計算式で算出します。
- Aを選択して購入した人のオッズ 0.533/(1-0.533)=1.141…
- Aを選択せずに購入した人のオッズ 0.6/(1-0.6)=1.5…
- Bを選択して購入した人のオッズ 0.857/(1-0.857)=5.993…
- Bを選択せずに購入した人のオッズ 0.478/(1-0.478)=0.916…
- Cを選択して購入した人のオッズ 0.375/(1-0.375)=0.6
- Cを選択せずに購入した人のオッズ 0.636/(1-0.636)=1.747…
次にオッズ比ですが、たとえば、Aを選択して購入した人のオッズを選択せずに購入した人のオッズで割って算出します。
1.141/1.5=0.761
となります。同様にBとCを算出すると、それぞれ、Bは6.542、Cは0.343です。
オッズ比は1より大きい場合は選択して購入した人、1より少なければ選択せずに購入する事象が起こりやすくなるという相関関係がわかります。
つまり、Aを選択した人はしない人よりも購入する可能性が若干下がる。Bを選択した人はしない人よりも高い確率で購入する。Cは選択しない人のほうが圧倒的に購入する確率が高まるといえるでしょう。
この結果から、Cは必ずしも必要ではない。Aは改善を行うことで購入確率が高まると予測できます。
ロジスティック回帰分析と重回帰分析の違い
多変量解析には、ロジスティック回帰分析のほか、重回帰分析が有名です。同じ多変量解析ではありますが、それぞれの最大の違いは、目的変数が質的か量的かにあります。
前述の例でいえば、ロジスティック回帰分析の目的変数は購入の有無です。複数の説明変数から目的変数が発生する確率を0~1の範囲で予測します。
これに対し、重回帰分析は説明変数が目的変数を変化させ、その結果を数値として予測するものです。たとえば、特定の商品の過去の販売データ、今期の新店舗出店数と退店数、広告宣伝費などから今期の販売数を予測する際に活用します。
ロジスティック分析と機械学習の関係
ロジスティック回帰分析は、機械学習における教師あり学習の一つです。教師あり学習とは、学習させるデータに正解を与えた状態で学習をさせる手法で、前述したように購入の有無といった回答が明瞭な問題の解決に適した学習方法といえるでしょう。
学習の実行には、予測値と実際の値との差分である誤差を最小値にするため、その最小値を求める最急降下法や誤差を測定する確率的勾配降下法などが用いられます。
ロジスティック回帰分析の活用シーン
ロジスティック回帰分析は、ビジネスシーン、特にマーケティング施策の検討に活用できますが、それ以外にも多くのシーンで活用が可能です。ここでは、主な活用シーンを紹介します。
異常検知
異常検知とは、製造業において不良品の発生を検知する。ネットワーク業においてサーバーの不正アクセスを検知する。金融業で不正会計や取引を検知するなどで、これらをロジスティック回帰分析で行います。
たとえば、金融業において、不正会計の有無を目的変数にし、不正会計があった企業となかった企業の財務諸表と業績データを説明変数にします。これでロジスティック回帰分析を行うことで、自社に不正会計の危険度がどの程度あるのかの予測が可能です。
病気や病気の可能性の予測
ロジスティック回帰分析は医療現場で病気や病気の可能性予測を行う手法としても活用されています。
たとえば、癌や糖尿病など特定の病気の有無を目的変数にし、喫煙本数やアルコール摂取量、睡眠時間、コレステロール値などを説明変数にすれば、患者の検査結果から特定の病気を引き起こす要因の予測が可能です。
仮に睡眠時間、コレステロール値と糖尿病発症有無の相関関係が見つかれば、発症前にある程度の予測ができるようになり、患者に対して予防やケアの指導が行えます。
気象観測
特定の日にちや場所での台風、落雷の有無を目的変数、過去の気温、湿度、天気図などを説明変数にすれば、ロジスティック回帰分析による気象予測も可能です。
台風や落雷などの気象は、エンターテインメント、飲食、スポーツ、農業、漁業などさまざまなビジネスで売上に大きな影響を与えます。たとえば、屋外イベントの日にちを決める、天候によって弁当の販売数を調整するなどがロジスティック回帰分析により可能になるでしょう。
また、台風や落雷などの予測はビジネスに限らず一般的な危機管理においても重要な要素の一つです。台風の進路や強弱の予測ができれば、床上浸水や土砂崩れなどによるリスクを最小限に抑えられます。
マーケティング
ロジスティック回帰分析によって気象予測を行い、イベント開催日を決めたり、弁当の販売数を調整したりするのもマーケティング施策の一つです。
そして、気象に関係ないマーケティング施策においてもロジスティック回帰分析は大きな効果を発揮します。具体的な例をいくつか見てみましょう。
ネットショップでランディングページを経由した場合としなかった場合の購入確率予測
広告経由、SNS経由、検索経由のなかでもっとも購入確率の高い動線の予測
年齢、性別などの属性による購入確率予測
DMを送った顧客と送らなかった顧客とでの購入確率予測
これらの予測をロジスティック回帰分析の実施により予測可能です。たとえば、ランディングページを経由した場合と経由しなかった場合で購入確率があまり変わらなければ、ランディングページの改善により購入確率はさらに高まると考えられるでしょう。
ロジスティック回帰に適しているシーン
ロジスティック回帰に適しているのは、求めたい目的変数が明確なシーンといえるでしょう。購入の有無、台風・落雷が発生するかしないか、病気に罹るか罹らないかなどの予測にはロジスティック回帰が向いています。
逆に目的変数が曖昧なときや、数値を知りたいときにはロジスティック回帰は向いていません。一定期間の売上高、台風が発生したときの雨量、病気の重さなどを予測したい場合は、ほかの分析手法を使う必要があります。
ロジスティック回帰の3つのモデル
ひと口にロジスティック回帰といってもその種類は、「二項ロジスティック回帰」「多項ロジスティック回帰」「序数ロジスティック回帰」の3つに分けられます。ここでは、それぞれの種類の概要や利用シーンについて見ていきましょう。
二項ロジスティック回帰
二項ロジスティック回帰とは、目的変数の結果が0か1になるものです。
これまで見てきたような購入の有無、台風・落雷が発生するかしないか、病気に罹るか罹らないかなど、結果が2つしかないものの予測をする際に使用するアプローチです。通常、ロジスティック回帰といえばこの二項ロジスティック回帰を指します。
多項ロジスティック回帰
多項ロジスティック回帰とは、目的変数が0か1ではなく、3つ以上あるものです。
たとえば、スマートフォンのケースを製造販売している企業が新商品のカラーを5色用意しようと検討しているとします。
このときに、過去の同価格帯商品の販売データ、購入した顧客の性別、年齢、好みなどの要素からもっとも購入される確率が高い5色を選ぶ際に使用するアプローチです。
ほか、音楽のサブスクリプションサービスを行っている企業がキャンペーンを実施する際にも多項ロジスティック回帰が活用できます。
再生回数や登録者数、顧客アンケートなどから、もっとも興味を惹くアーティストを予測し、キャンペーンキャラクターとして広告展開を行えば、利用者増が期待できるでしょう。
序数ロジスティック回帰
序数ロジスティック回帰とは、多項ロジスティック回帰同様、3つ以上の目的変数がある場合に使われますが、異なるのは目的変数に序列がある点です。
たとえば、製菓メーカーが飴のフレーバーの好みと人気の相関関係を調べたい場合、「りんご」「みかん」「ぶどう」「パイナップル」「メロン」の5種類を顧客に、「美味しい」から「美味しくない」をA~Fの6段階に分けて評価してもらいます。これにより、味の評価と実際の売上との相関関係が確認可能です。
仮にパイナップルの味は高評価だったが、売上が一番低かった場合、広告宣伝活動の改善が必要だとわかります。
ロジスティック回帰分析の注意点
ロジスティック回帰分析を行う際に注意する点はいくつかありますが、特に注意すべきは次の3点です。
1.曖昧な説明変数はデータに含めない
ロジスティック回帰では、基本的に目的変数も説明変数も0か1かで決められるものの分析に適しています。そのため、1、0ではなく、「どちらでもない」「わからない」といった回答が多いとデータとして使えず、ロジスティック回帰分析は難しくなってしまうでしょう。
2.二項ロジスティック回帰を基本とする
二項ロジスティック回帰と多項ロジスティック回帰では、計算方法が異なります。同じ計算方法では正確な予測ができなくなってしまうため、基本的に二項ロジスティック回帰でのアプローチが必要です。
3.2つの値に有意差がないとデータとして使えない
たとえば、3つの説明変数で、AとBの値がどれも50:50で差が出なかった場合、説明変数としては使えません。
ロジスティック解析に活用されるプログラミング言語
ロジスティック回帰分析は、エクセルのような表計算ソフトでも行えますが、プログラミング言語を使い、より高度な分析も行えます。使用される言語は、PythonとRです。それぞれの言語を使うメリット・デメリットについて解説します。
Pythonを使うメリット・デメリット
オブジェクト指向型スクリプト言語であるPythonをロジスティック回帰分析に使うメリットは、ライブラリが豊富で比較的初心者でも扱いやすい言語だという点です。機械学習やAIの開発にも使われているため、ロジスティック回帰分析とも相性が良い言語だといえるでしょう。
デメリットとしては、比較的新しい言語であるため、日本語の情報が少ない点です。ただ、初心者でも扱いやすい言語のため、慣れてしまえばそれほど大きなデメリットとはいえません。
Rを使うメリット・デメリット
Rは元々統計解析やデータ解析での活用を視野に入れて開発された言語です。そのため、統計分野のパッケージが豊富なのはロジスティック回帰分析を行う際にも大きなメリットといえるでしょう。
また、ほかの言語やツールとの互換性も高く、Excelにデータを読み込むことができるのもRを使うメリットです。
ただし、統計や解析に特化した言語のため、これからさまざまなプログラミングをしていきたい方にとっては、あまりおすすめできる言語ではありません。
ロジスティック回帰はエクセルでも可能
ここで、エクセルを使ったロジスティック解析について簡単に解説します。
収集したデータをエクセルに入力し、EXLi関数やSUMliRODUCT関数を使って推定値の設定、LN関数を使ってデータごとの対数尤度を求める設定、SUM関数を使って対数尤度の設定をします。すべての設定を終えたら、ソルバー機能を使い、偏回帰係数を計算すれば、ロジスティック回帰分析が行えます。
使用する関数もそれほど多くはないため、慣れてしまえばエクセルだけでも比較的容易にロジスティック回帰分析ができるようになるでしょう。
ロジスティック回帰分析はさまざまな分野に活用できる
ロジスティック回帰分析とは、多変量解析の一つで、ある特定の事象が起きる確率を分析し、結果を予測できるようにするものです。
ビジネスシーンにおけるマーケティング施策のほか、医療、気象、金融などさまざまな業種、分野で活用できるため、大きな注目を集めています。
分析手法として人気の理由として、エクセルだけでも分析が可能な点が挙げられます。社内にデータアナリストやデータサイエンティストがいなくても簡単なものであれば、すぐに分析できるのは、ロジスティック回帰分析の大きなメリットです。
ただし、より複雑な分析を行うには、プログラミング言語の習得をおすすめします。特にPythonであれば、ロジスティック回帰分析以外にAIや機械学習、アプリケーションの開発にも使えるため、新たにプログラミング言語の習得を検討されている際は、Pythonの習得がおすすめです。
データ分析について詳しく知りたい方はこちらの記事もご覧ください。
データ分析とは?基礎から分かる手法と流れ、仕事でのメリットも解説
AIについて詳しく知りたい方は以下の記事もご覧ください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI・人工知能記事カテゴリ一覧
AI・人工知能サービス
- 生成AI
- 画像生成AI
- ChatGPT
- AI研究開発
- LLM
- DX推進
- おすすめAI企業
- チャットボット
- ボイスボット
- 音声認識・翻訳・通訳
- 画像認識・画像解析
- 顔認証
- AI-OCR
- 外観検査
- 異常検知・予知保全
- 自然言語処理-NLP-
- 検索システム
- 感情認識・感情解析
- AIモデル作成
- 需要予測・ダイナミックプライシング
- AI人材育成・教育
- アノテーション
- AI学習データ作成
- エッジAI
- IoT
- JDLA
- G検定
- E資格
- PoC検証
- RPAツール
- Salesforce Einstein
- Watson(ワトソン)
- Web接客ツール
- サプライチェーン
- メタバース
- AR・VR・デジタルツイン
- MI
- スマートファクトリー
- データ活用・分析
- 機械学習
- ディープラーニング
- 強化学習
- テレワーク・リモートワーク
- マーケテイングオートメーション・MAツール
- マッチング
- レコメンド
- ロボット
- 予測
- 広告・クリエイティブ
- 営業支援・インサイドセールス
- 省人化
- 議事録自動作成
- 配送ルート最適化
- 非接触AI
業態業種別AI導入活用事例
今注目のカテゴリー
AI製品・ソリューションの掲載を
希望される企業様はこちら