機械学習における評価指標とは？必要性や予測・評価ステップを解説

最終更新日:2024/02/08

機械学習の評価指標とは？

機械学習における評価指数とは、モデルの精度を評価する値のことを指します。しかし、評価指数という言葉を聞いたことがあっても具体的にはよくわからない方も多いのではないでしょうか。

そこで、こちらでは機械学習における評価指数の概要や必要性などについて解説します。これから機械学習を導入したいと考えている方に役立つ情報を紹介しますので、ぜひ参考にしてください。

機械学習について詳しく知りたい方は以下の記事もご覧ください。
機械学習とは？種類や仕組み、活用事例をわかりやすく簡単に説明

機械学習とは

機械学習とは、大量のデータから機械が学習し、パターンや規則を見つける方法のことです。似たような言葉としてAIが挙げられますが、機械学習はAIを実現するための分析技術の1つに数えられます。また、近年注目を集めているディープラーニングは、機械学習の一部です。

機械学習では、予測の精度が最も大切にされています。学習によってデータのパターンや規則を見つけることで、次に同様の課題が出された場合にはより正確な予測を出せるようになります。

人も過去の経験などから次に起きることを予測できますが、機械が処理できるデータ量は人間よりも膨大です。また、人は過去の経験を忘れることがある一方で、機械は一度学習したことを忘れません。膨大なデータのパターンや規則を活かすことで、日常生活を支える重要な予測や分析が可能になります。

機械学習の学習方法

機械学習の主な学習方法は、以下の通りです。

学習方法	概要
教師あり学習	あらかじめ設定された入力データに対する出力データをもとに、正誤の判断を行う方法
教師なし学習	入力データの中からパターンや規則を見つけ、データの関連性を推計したりグループ分けを行ったりする方法
強化学習	人によるデータ入力や指示を伴わず、機械自身が精度を高め、最適なシステムを見つける方法
深層強化学習	深層学習（ディープラーニング）と強化学習を組み合わせた方法で、システムの選択にニューラルネットワークを使用する
半教師あり学習	「教師あり」と「教師なし」を組み合わせた方法

教師あり学習は、人が事前に入力した正解のデータと比較して正しいか否かを判断させる手法です。例えば、天気や価格などの要素から店舗の売上を予測する際などに使われます。教師なし学習は、教師あり学習のように正解のデータがなく、人が与えたデータに対して自らパターンや規則を見つける方法です。ECサイトの「おすすめ商品表示」やデータのグループ分けなどに用いられます。

「教師あり」「教師なし」では人がデータを入力していたのに対し、強化学習は機械が自ら精度を高めていく方法です。例えば、ロボットが歩く距離を伸ばすための方法を機械が推測する際には、人が入力した歩行データを使うのではなく、機械がさまざまな歩き方を試し、学習することで理想的な歩行方法を見つけ出すことになります。

深層学習と強化学習を組み合わせた深層強化学習は、ニューラルネットワークを使用し、システム選択の精度をより高められるのが特徴です。

また、半教師あり学習は「教師あり」と「教師なし」を組み合わせた学習方法で、組み合わせ方には複数の方法があります。例えば「教師なし学習でパターンや規則を習得したあとに、教師あり学習で同一のモデルを再び学習する方法」などが挙げられます。

機械学習における評価指標とは

機械学習では、入力データ（説明変数/ある値や現象の原因となる変数）を評価して、出力データ（目的変数/説明変数（原因）によって発生した結果を表す変数）を導き出すための仕組みのことをモデルと呼びます。作成したモデルの精度を判断するために用いられるのが評価指標です。評価指標と一口にいってもさまざまなタイプがあり、目的に合わせて選ぶ必要があります。

機械学習における評価指標の必要性

そもそも機械学習は、データから説明変数を使い、目的変数を予測するモデルを導き出すためのものです。評価指数によってモデルの精度を数値的に評価すれば、どのモデルがどの程度の効果を出したのか明確になります。そのため、より効果的なモデルを構築するためにも評価指数が必要なのだといえるでしょう。

機械学習における評価指標の種類

機械学習における評価指標の種類は以下の通りです。

正解率(Accuracy)
適合率(Precision)
再現率(Recall)
F値(F1-score)
MAE
MSE
RMSE
関係係数(寄与率)

分類モデル（項目をカテゴリ分けする際などに使われるモデル）には正解率・適合率・再現率・F値、回帰モデル（値を予測するために使われるモデル）にはMAE・MSE・RMSE・決定係数が用いられます。

全ての物事は1つの基準だけで判断できず、機械学習のモデルに関しても同様です。目的に合わせて、最適な種類の評価指数を用いる必要があります。そこで、ここからは各指標の詳細を確認していきましょう。

正解率(Accuracy)

正解率とは、モデルが正確に予測できた割合です。正解率を使えば、モデルの大まかな正確性を判断できます。とてもシンプルな考え方なので、評価指数に慣れていなくても比較的容易に解釈できるでしょう。ただし、分析結果のほとんどがネガティブで稀にポジティブが出る場合など、データの偏りが大きいケースには向いていません。

例えば、欠陥品が2%の割合で現れるケースだと、全サンプルに「欠陥品ではない」と判断したモデルの正解率は98%になり、正確性に欠けます。そのため、データに極端な偏りがないケースに用いることになります。

適合率(Precision)

適合率とは、モデルがポジティブと予測したサンプルのうち実際にポジティブだった割合です。主に、本来ネガティブであるものをポジティブと予測した際に問題が起きる場合に用いられます。

例えば、迷惑メールを分類する際に、本当は迷惑メールではないものを迷惑メールと誤認知してしまうと、重要なメールを見逃しかねません。適合率でモデルの正確性を確かめておけば、迷惑メールではないメールの誤認知を抑えられます。

ただし、適合性はネガティブ予測を無視しているところが注意しておきたいポイントです。ポジティブ予測のみに着目しているため、偽ネガティブ予測が多いことが問題視されるケースには向いていません。

再現率(Recall)

再現率とは、ポジティブサンプルのうち、モデルが正しくポジティブだと予測できた割合のことです。ポジティブサンプルの見過ごしが増えるほど、低い再現率になります。そのため、間違ってネガティブだと予測しては問題がある場合に用いられるのが特徴です。

例えば、異常検知システムにおける故障の見逃しを抑え、事故のリスクを回避したいケースなどに取り入れられます。しかし、問題がないのにも関わらず異常があると誤って検知されると業務に支障をきたしてしまうため、再現率だけでなく適合率とのバランスも見ながら判断することが重要です。

F値(F1-score)

F値とは、適合率と再現率を一緒に評価する指標のことです。適合率と再現率それぞれが同じくらい重要な場合、もしくは偽ポジティブ予測と偽ネガティブ予測の両方ともに注目したい場合に用いられます。F値による評価の範囲は0〜1で、1に近いほどモデルの予測精度が高いと考えられます。

MAE

MAEとは、予測の誤差を絶対値によって平均化し、評価する指数のことを指します。値が小さくなるほど、精度の高いモデルだと評価できるのが特徴です。各サンプルに対する誤差を均等に評価し、サンプル全体の誤差をできる限り抑えたい場合に用いられます。

また、外れ値（他のデータと比べて極端に離れた値のこと）に強いのもMAEのポイントです。そのため、多くの外れ値が含まれたデータセットにも適しています。

MSE

MSEとは、モデルによる予測値と実際の値の誤差の平均値を表す指数のことです。予測と実際の値にどの程度の誤差があるか確認することで、モデルの正確性を測ります。基本的に、小さな値が出るほど誤差の少ないモデルだと捉えられます。

RMSE

RMSEとは、予測値の誤差の二乗平均を集計した回帰モデルの指標のことで、MSEに平方根をつけたものです。小さな値になるほど、精度の高いモデルであることがわかります。MSEとの違いは、平方根をつけることで算出した値をモデルの予測値の単位として使えるようになったところです。例えば、予測値が「m（メートル）」であれば、RMSEの単位も「m」とできます。現場で実際に使ったときなど、具体的な状況を想定しながら評価ができる指標といえるでしょう。

主に、大きな誤差を出すサンプルを減少させたいときなどにRMSEが役立ちます。ただし、外れ値が多いデータセットは予測誤差が生まれやすく、RMSEによる正確な評価が困難になるため注意が必要です。

関係係数(寄与率)

決定係数とは、モデルの予測値が実際の値と比べてどのくらい一致しているか評価する指標です。基本的に0〜1の値で表現され、値が大きくなるほどモデルの精度が高いと捉えられます。主に、モデルの正確性を判断するのに用いられます。

ただし、高過ぎる値が出た場合は過学習に陥っている可能性があるため注意が必要です。「過学習」とは、作成モデルが学習用データに適合し過ぎたのが原因で、学習用データ以外の検証用データだと予測精度が落ちることを指します。過学習が疑われる場合は、指標の値だけでなく検証用データに対する汎用性も確かめる必要があるでしょう。

機械学習における予測・評価ステップ

続いて、機械学習における予測と評価のステップを紹介します。机上検証と実証検証でどのようなことを行うのか、具体的に確認しましょう。

机上検証における評価

机上検証とは、あるシステムを導入する際にシステムが正常に作動するか確認するための検証のことを指します。機械学習においても、すでにあるデータの中から机上検証を行うことが可能です。

例えば、現在が2023年6月で、売上予測の机上検証を行いたい場合を考えてみましょう。まずは、2018年1月から2022年12月までのデータを使ってモデルを作り、2023年1月〜5月までの予測を立てます。

次に2023年1月から5月までの売上の実測値とモデルの予測値を比べ、どの程度の誤差があるか検証してください。このケースは回帰モデルのため、RMSEなどを使います。なお、分類モデルを使う場合も同様のプロセスを踏むのが基本です。

実証実験における評価

実証実験における評価とは「モデルの学習は成功しているのか」「成功しているのであれば、成功度はどの程度か」といったことを確かめることです。システムを本格的に実装する前には、テスト期間を設けて机上検証と同じ条件のもとで実証実験を行い、精度を確かめる必要があります。

例えば、売上予測を検証したい場合は、特定の店舗にシステムを適用し、予測値と実際値との差を確かめましょう。大きな誤差や問題がないようなら、システムを実装し、運用を開始する工程へと移ります。

機械学習の評価における注意点

機械学習の評価では、気をつけておきたいことがいくつかあります。まず注意したいのが、過学習があると的確な評価ができない、ということです。前述の通り、過学習とは学習用データだけに適合化し過ぎた状態になり、検証データにおける精度が下がることを指します。過学習を防ぐには、学習用データと検証データを分けたうえでモデルを作ることが大切です。