打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
常见回归和分类损失函数比较
userphoto

2022.06.15 北京

关注

代码

https://www.cnblogs.com/massquantity/p/8964029.html

损失函数的一般表示为L(y,f(x)),用以衡量真实值y和预测值f(x)之间不一致的程度,一般越小越好。为了便于不同损失函数的比较,常将其表示为单变量的函数,在回归问题中这个变量为yf(x),在分类问题中则为yf(x)。下面分别进行讨论。

回归问题的损失函数

回归问题中yf(x)皆为实数R,因此用残差 yf(x)来度量二者的不一致程度。残差 (的绝对值) 越大,则损失函数越大,学习出来的模型效果就越差(这里不考虑正则化问题)。


常见的回归损失函数有

  • 平方损失 (squared loss)(yf(x))2
  • 绝对值 (absolute loss) : |yf(x)|
  • Huber损失 (huber loss) : {12[yf(x)]2|yf(x)|δδ|yf(x)|12δ2|yf(x)|>δ

其中最常用的是平方损失,然而其缺点是对于异常点会施以较大的惩罚,因而不够robust。如果有较多异常点,则绝对值损失表现较好,但绝对值损失的缺点是在yf(x)=0处不连续可导,因而不容易优化。
Huber损失是对二者的综合,当|yf(x)|小于一个事先指定的值δ时,变为平方损失,大于δ时,则变成类似于绝对值损失,因此也是比较robust的损失函数。三者的图形比较如下:






分类问题的损失函数

对于二分类问题,y{1,+1},损失函数常表示为关于yf(x)的单调递减形式。如下图:



yf(x)被称为margin,其作用类似于回归问题中的残差 yf(x)


二分类问题中的分类规则通常为 sign(f(x))={+1ifyf(x)01ifyf(x)<0

可以看到如果 yf(x)>0,则样本分类正确,yf(x)<0 则分类错误,而相应的分类决策边界即为 f(x)=0。所以最小化损失函数也可以看作是最大化 margin 的过程,任何合格的分类损失函数都应该对 margin<0 的样本施以较大的惩罚。

1、 0-1损失 (zero-one loss)

L(y,f(x))={0ifyf(x)01ifyf(x)<0

0-1损失对每个错分类点都施以相同的惩罚,这样那些“错的离谱“ (即 margin)的点并不会收到大的关注,这在直觉上不是很合适。另外0-1损失不连续、非凸,优化困难,因而常使用其他的代理损失函数进行优化。

2、Logistic loss

L(y,f(x))=log(1+eyf(x))

logistic Loss为Logistic Regression中使用的损失函数,下面做一下简单证明:


Logistic Regression中使用了Sigmoid函数表示预测概率:

g(f(x))=P(y=1|x)=11+ef(x)

P(y=1|x)=1P(y=1|x)=111+ef(x)=11+ef(x)=g(f(x))

因此利用y{1,+1},可写为P(y|x)=11+eyf(x),此为一个概率模型,利用极大似然的思想:

max(i=1mP(yi|xi))=max(i=1m11+eyif(xi))

两边取对数,又因为是求损失函数,则将极大转为极小:

max(i=1mlogP(yi|xi))=min(i=1mlog(11+eyif(xi)))=min(i=1mlog(1+eyif(xi))

这样就得到了logistic loss。

如果定义t=y+12{0,1},则极大似然法可写为:

i=1m(P(ti=1|xi))ti((1P(ti=1|x))1ti

取对数并转为极小得:

i=1m{tilogP(ti=1|xi)(1ti)log(1P(ti=1|xi))}

上式被称为交叉熵损失 (cross entropy loss),可以看到在二分类问题中logistic loss和交叉熵损失是等价的,二者区别只是标签y的定义不同。

3、Hinge loss

L(y,f(x))=max(0,1yf(x))

hinge loss为svm中使用的损失函数,hinge loss使得yf(x)>1的样本损失皆为0,由此带来了稀疏解,使得svm仅通过少量的支持向量就能确定最终超平面。

hinge loss被翻译为“合页损失”,那么合页究竟长啥样?如图,确实有点像hinge loss的形状:

来看下 hinge loss 是如何推导出来的,带软间隔的svm最后的优化问题可表示为:

(1)minw,b,ξ12||w||2+Ci=1mξi(2)s.t.yi(wTxi+b)1ξi(3)ξi0,i=1,2,...,m

(2) 式重新整理为 ξi1yi(wTxi+b) 。若 1yi(wTxi+b)<0 ,由于约束(3) 的存在,则 ξi0 ;若1yi(wTxi+b)0 ,则依然为 ξi1yi(wTxi+b) 。所以(2),(3) 式结合起来:

ξimax(0,1yi(wTxi+b))=max(0,1yif(xi))

又由于 (1) 式是最小化问题,所以取 ξi 的极小值,即令 ξi=max(0,1yf(x)) 代入 (1) 式,并令λ=12C

minCi=1mmax(0,1yif(xi))+12||w||2mini=1mmax(0,1yif(xi))hingeloss+λ||w||2

另外可以看到 svm 这个形式的损失函数是自带参数 wL2 正则的,而相比之下Logistic Regression的损失函数则没有显式的正则化项,需要另外添加。

4、指数损失(Exponential loss)

L(y,f(x))=eyf(x)

exponential loss为AdaBoost中使用的损失函数,使用exponential loss能比较方便地利用加法模型推导出AdaBoost算法 (具体推导过程)。然而其和squared loss一样,对异常点敏感,不够robust。

5、modified Huber loss

L(y,f(x))={max(0,1yf(x))2ifyf(x)14yf(x)ifyf(x)<1

modified huber loss结合了hinge loss和logistic loss的优点,既能在yf(x)>1时产生稀疏解提高训练效率,又能进行概率估计。另外其对于(yf(x)<1) 样本的惩罚以线性增加,这意味着受异常点的干扰较少,比较robust。scikit-learn中的SGDClassifier同样实现了modified huber loss。

最后来张全家福:

从上图可以看出上面介绍的这些损失函数都可以看作是0-1损失的单调连续近似函数,而因为这些损失函数通常是凸的连续函数,因此常用来代替0-1损失进行优化。它们的相同点是都随着margin而加大惩罚;不同点在于,logistic loss和hinge loss都是线性增长,而exponential loss是以指数增长。

值得注意的是上图中modified huber loss的走向和exponential loss差不多,并不能看出其robust的属性。其实这和算法时间复杂度一样,成倍放大了之后才能体现出巨大差异:





/

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
AI基础:机器学习的损失函数
收藏 | 深度学习常用损失函数的基本形式、原理及特点
机器学习中的正则化问题(1)
Coursera机器学习笔记(五)
指数分布族(The Exponential Family)与广义线性回归(Generalized Linear Model GLM)
如何选择合适的损失函数,请看......
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服