机器学习中的评价指标#
关于这一部分,我将在遇到的时候,进行简要的说明和介绍,之讲解最重点的部分,其它的可以查阅相关文献和博主的文章。
1. 关于 P、R 值#
这应该是机器学习中最常用的两个统计量了,我们要计算它,无非就要计算混淆矩阵,最简化的版本是下面的 4 项版本。
Predicted Positive | Predicted Negtive | |
---|---|---|
Trurh:True | TP | FN |
Trurh:False | FN | TN |
该表的 4 项在计算时,第二项表示的是预测值,而第一项则与真实值取同或,相同为 True,不同则为 False。
基于此表,我们可以求取各种物理量,最常用的是 P (精度), R (召回率) 和 accuracy (准度)。一下分别为其计算公式 :
P = TP/TP+FP
R = TP/TP+FN
Accuracy = TP+TN/TP+FN+FP+TN
其含义相对来说很好理解,就不赘述了。
2.F 值的计算
F 的计算是 P 和 R 的加权调和平均,怎么理解它呢,为什么要用这种形式呢。其实仔细看不难发现,证据常用的 F1 值,其实它的公式就类似电阻并联的公式:
F=2PR/P+R
3. 其它
基于这些统计量,还有其它很多衍生的指标以及曲线,用于刻画不同的性能,常用的有 PR 曲线,AOC 曲线等等,这些并不复杂,用时再查阅即可。