Loading...
墨滴

algolearn

2021/09/15  阅读:17  主题:默认主题

loss_function

1 回归损失

1.1 均方误差

均方误差(MSE)度量的是预测值和实际观测值间差的平方的均值。它只考虑误差的平均大小,不考虑其方向。但由于经过平方,与真实值偏离较多的预测值会比偏离较少的预测值受到更为严重的惩罚。再加上 MSE 的数学特性很好,这使得计算梯度变得更容易。

1.2 平均绝对误差

平均绝对误差(MAE)度量的是预测值和实际观测值之间绝对差之和的平均值。和 MSE 一样,这种度量方法也是在不考虑方向的情况下衡量误差大小。但和 MSE 的不同之处在于,MAE 需要像线性规划这样更复杂的工具来计算梯度。此外,MAE 对异常值更加稳健,因为它不使用平方。

2 分类损失

2.1 Hinge Loss

通常用于"maximum-margin"的分类任务中,如支持向量机, 表示预测输出,通常都是软结果(就是说输出不是0,1这种,可能是0.87。), 表示正确的类别。

实际应用中,一方面很多时候我们的y的值域并不是[-1,1],比如我们可能更希望y更接近于一个概率,即其值域最好是[0,1]。另一方面,很多时候我们希望训练的是两个样本之间的相似关系,而非样本的整体分类,所以很多时候我们会用下面的公式:

其中, 是正样本的得分, 是负样本的得分, 是margin(自己选一个数),即我们希望正样本分数越高越好,负样本分数越低越好,但二者得分之差最多到m就足够了,差距增大并不会有任何奖励。

比如,我们想训练词向量,我们希望经常同时出现的词,他们的向量内积越大越好;不经常同时出现的词,他们的向量内积越小越好。则我们的hinge loss function可以是:

是当前正在处理的词, 在文中前3个词和后3个词中的某一个词, 是随机选的一个词。

2.2 Cross Entropy Loss

2.3 KL-Divergence

在机器学习中,P往往用来表示样本的真实分布,Q用来表示模型所预测的分布,那么KL散度就可以计算两个分布的差异,也就是Loss损失值。从KL散度公式中可以看到Q的分布越接近P(Q分布越拟合P),那么散度值越小,即损失值越小。

algolearn

2021/09/15  阅读:17  主题:默认主题

作者介绍

algolearn