機械学習における評価指標#
このセクションでは、私は遭遇したときに簡単な説明と紹介を行い、最も重要な部分を説明し、他の部分は関連文献やブロガーの記事を参照してください。
1. P、R 値について#
これは機械学習で最もよく使用される 2 つの統計量であり、それを計算するためには混同行列を計算する必要があります。最も簡単なバージョンは以下の 4 つの項目です。
予測された陽性 | 予測された陰性 | |
---|---|---|
真実:True | TP | FN |
真実:False | FN | TN |
この表の 4 つの項目は、計算時に、第 2 項目は予測値を表し、第 1 項目は真の値と同じか異なるかを取ります。同じ場合は True、異なる場合は False です。
この表に基づいて、P(精度)、R(再現率)、および accuracy(正確度)などのさまざまな物理量を求めることができます。以下はそれぞれの計算式です:
P = TP/TP+FP
R = TP/TP+FN
Accuracy = TP+TN/TP+FN+FP+TN
その意味は比較的理解しやすいので、ここでは詳細には触れません。
- F 値の計算
F の計算は P と R の加重調和平均です。これをどのように理解し、なぜこの形式を使用するのでしょうか。実際、よく使われる F1 値をよく見ると、実際には電気抵抗の並列の公式に似ています:
F=2PR/P+R
-
その他
これらの統計量に基づいて、他にもさまざまな派生指標や曲線があり、さまざまな性能を表現するために使用されます。一般的なものには PR 曲線、AOC 曲線などがありますが、これらは複雑ではなく、必要に応じて参照してください。