PRC

对二分类器来说,我们可以计算其对某个数据集的Precision和Recall。不过,需要注意的是,这里的Precision和Recall都是针对某一个置信度Threshold的,比如0.5。

当我们对每个Threshold(0-1)都计算一下Precision和Recall,我们就可以得到P-R曲线(横轴为Recall,纵轴为Precision)。显然,

总的来说,RPC反应了不同Threshold(Cut-Off)下Precision和Recall的值,但是有可能曲线上的某点和Cut-off可能不是一一对应的,有可能多个cut-off对应一个点。

Recall一定的情况下,肯定是Precision越高越好,因此曲线越往右上倾斜越好

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者的性能优于前者,例如上面的A和B优于学习器C。但是A和B的性能无法直接判断,我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点或者是F1值。平衡点(BEP)是P=R时的取值,如果这个值较大,则说明学习器的性能较好。而F1 = 2 * P * R /( P + R ),同样,F1值越大,我们可以认为该学习器的性能较好。

ROC

在ROC曲线中,横轴是假正例率(FPR),纵轴是真正例率(TPR)。

  1. 真正类率(True Postive Rate)TPR: TP/(TP+FN), 代表分类器预测的正类中实际正实例占所有正实例的比例。
  2. 负正类率(False Postive Rate)FPR: FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。

FPR=0, TPR=1是最好的情况,这种情况下,所有用例都正确分类。TPR=1意味着FN=0, FPR=0意味着FP=0,也即,y越大,漏报越少,x越小,误报越少。因此曲线越往左上角倾斜越好

AUC

AUC (Area under Curve):ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。