对二分类器来说,我们可以计算其对某个数据集的Precision和Recall。不过,需要注意的是,这里的Precision和Recall都是针对某一个置信度Threshold的,比如0.5。
当我们对每个Threshold(0-1)都计算一下Precision和Recall,我们就可以得到P-R曲线(横轴为Recall,纵轴为Precision)。显然,
总的来说,RPC反应了不同Threshold(Cut-Off)下Precision和Recall的值,但是有可能曲线上的某点和Cut-off可能不是一一对应的,有可能多个cut-off对应一个点。
Recall一定的情况下,肯定是Precision越高越好,因此曲线越往右上倾斜越好。
如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者的性能优于前者,例如上面的A和B优于学习器C。但是A和B的性能无法直接判断,我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点或者是F1值。平衡点(BEP)是P=R时的取值,如果这个值较大,则说明学习器的性能较好。而F1 = 2 * P * R /( P + R ),同样,F1值越大,我们可以认为该学习器的性能较好。
在ROC曲线中,横轴是假正例率(FPR),纵轴是真正例率(TPR)。
FPR=0, TPR=1是最好的情况,这种情况下,所有用例都正确分类。TPR=1意味着FN=0, FPR=0意味着FP=0,也即,y越大,漏报越少,x越小,误报越少。因此曲线越往左上角倾斜越好。
AUC (Area under Curve):ROC曲线下的面积,介于0.1和1之间,作为数值可以直观的评价分类器的好坏,值越大越好。