機器學習中的評估指標#
關於這一部分,我將在遇到的時候,進行簡要的說明和介紹,之講解最重點的部分,其它的可以查閱相關文獻和博主的文章。
1. 關於 P、R 值#
這應該是機器學習中最常用的兩個統計量了,我們要計算它,無非就要計算混淆矩陣,最簡化的版本是下面的 4 項版本。
Predicted Positive | Predicted Negtive | |
---|---|---|
Trurh:True | TP | FN |
Trurh:False | FN | TN |
該表的 4 項在計算時,第二項表示的是預測值,而第一項則與真實值取同或,相同為 True,不同則為 False。
基於此表,我們可以求取各種物理量,最常用的是 P (精度), R (召回率) 和 accuracy (準度)。以下分別為其計算公式 :
P = TP/TP+FP
R = TP/TP+FN
Accuracy = TP+TN/TP+FN+FP+TN
其含義相對來說很好理解,就不贅述了。
2.F 值的計算
F 的計算是 P 和 R 的加權調和平均,怎麼理解它呢,為什麼要用這種形式呢。其實仔細看不難發現,證據常用的 F1 值,其實它的公式就類似電阻並聯的公式:
F=2PR/P+R
3. 其它
基於這些統計量,還有其它很多衍生的指標以及曲線,用於刻畫不同的性能,常用的有 PR 曲線,AOC 曲線等等,這些並不複雜,用時再查閱即可。