打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
清楚的说明AUC-ROC:

  

  在数据科学/机器学习领域,我们可以看到与回归相比,我们还有更多的分类问题需要解决。 AUC-ROC是对分类问题的良好程度的度量。 在此博客中,我们将看到该值表示什么以及为什么它对于正确的预测很重要。

  ROC曲线是一种流行的图形,用于同时显示ROC曲线针对所有可能的阈值的两种类型的误差。 " ROC"这个名称具有悠久的历史,源于传播理论。 它是接收器工作特性的首字母缩写。 下图显示了训练数据上分类器的ROC曲线。 阈值是我们为拆分两个类别而设置的概率。 通常,阈值设置为0.5,但是当我们有不平衡数据集时,我们应该尝试使用不同的阈值。

  

  在所有可能的阈值上汇总的分类器的总体性能由(ROC)曲线(AUC)下的面积给出。 理想的ROC曲线将拥抱左上角,因此(ROC)曲线下方的面积越大,AUC越好。 对于此数据,AUC为0.95,接近最大值1,因此将被视为非常好。 ROC曲线对于比较不同的分类器非常有用,因为它们考虑了所有可能的阈值。

  正如我们在上面看到的,改变分类器阈值会改变其真阳性和假阳性率。 这些也称为敏感性和1-我们分类器的特异性。

  这是另一个术语"混淆矩阵"。 它使我们对分类器做出的预测有更广泛的了解。

  

  

  > Confusion Matrix

  真负。 和True Positive。 是我们的分类器正确分类为否定或肯定类的记录数。 误报或误报是我们的模型错误分类的记录数。 N和P为实际负值或正值,或者N 和P 分别为负值和正值。 使用混淆矩阵中的这些值,我们可以得出模型的各种矩阵。

  

  真实阳性率或召回率定义了从实际阳性中正确分类为阳性的预测数。

  假阳性率定义了从总实际阴性中有多少个预测被错误地分类为阴性。

  从曲线中可以看出,我们通常希望提高模型的真实肯定率,并减少错误肯定率。 如果我们举一个贷款违约分类的例子,我们要预测一个人是否会成为违约者。 在这种情况下,我们希望我们的分类器最大化True Positive率或召回率,因为这将增加我们找到实际违约者的机会。 尽管召回值增加时也会带来一定的损失。 随着更多的回忆,由于模型会将一些人归类为违约者,因此我们的误报率也可能会增加,但实际上并非如此。 因此,我们将尝试在模型的查准率和查全率之间取得平衡。

  我希望本文能清除您对ROC-AUC和混淆矩阵的理解。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
机器学习小白看过来,带你全面了解分类器评价指标
讲解几个数据分析的常用指标
机器学习中的AUC-ROC曲线
分类模型评估指标
模型评价(AUC,ROC曲线,ACC, 敏感性, 特异性,精确度,召回率,PPV, NPV, F1)
机器学习-混淆矩阵-ROC-AUC
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服