PRC & ROC & AUC

PRC

对二分类器来说，我们可以计算其对某个数据集的Precision和Recall。不过，需要注意的是，这里的Precision和Recall都是针对某一个置信度Threshold的，比如0.5。

当我们对每个Threshold（0-1）都计算一下Precision和Recall，我们就可以得到P-R曲线（横轴为Recall，纵轴为Precision）。显然，

当Threshold为0时，所有的预测都是Positive，那Recall肯定是1。
当Threshold为1时，所有的预测都是Negative，但是这时候Precision和Recall没法确定。

总的来说，RPC反应了不同Threshold（Cut-Off）下Precision和Recall的值，但是有可能曲线上的某点和Cut-off可能不是一一对应的，有可能多个cut-off对应一个点。

Recall一定的情况下，肯定是Precision越高越好，因此曲线越往右上倾斜越好。

如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C。但是A和B的性能无法直接判断，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。平衡点（BEP）是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。

ROC

在ROC曲线中，横轴是假正例率（FPR），纵轴是真正例率（TPR）。

真正类率(True Postive Rate)TPR: TP/(TP+FN)，代表分类器预测的正类中实际正实例占所有正实例的比例。
负正类率(False Postive Rate)FPR: FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。

FPR=0, TPR=1是最好的情况，这种情况下，所有用例都正确分类。TPR=1意味着FN=0， FPR=0意味着FP=0，也即，y越大，漏报越少，x越小，误报越少。因此曲线越往左上角倾斜越好。

AUC

AUC (Area under Curve)：ROC曲线下的面积，介于0.1和1之间，作为数值可以直观的评价分类器的好坏，值越大越好。

AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器。