20 Oct 2020 4990字 17分次 ML CC BY 4.0 （除特别声明或转载文章外）

损失函数

损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。

tain loss & test loss

train loss 不断下降，test loss不断下降，说明网络仍在学习;（最好的） train loss 不断下降，test loss趋于不变，说明网络过拟合;（max pool或者正则化） train loss 趋于不变，test loss不断下降，说明数据集100%有问题;（检查dataset） train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;（减少学习率） train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。（最不好的情况）

回归问题

平均损失函数（最小二乘法）

回归问题中常用的损失函数，在线性回归中，可以通过极大似然估计（MLE）推导。计算的是预测值与真实值之间距离的平方和。实际更常用的是均方误差（MSE）。

平均值绝对误差（L1损失）——MAE

MAE是目标值和预测值之差的绝对值之和，可以用来衡量预测值和真实值的距离。

MAE（L1损失） VS MSE（L2损失）

MSE计算简便，但MAE对异常点有更好的鲁棒性:当数据中存在异常点时，用RMSE计算损失的模型以牺牲了其他样本的误差为代价，朝着减小异常点误差的方向更新，会降低模型的整体性能。

NN中MAE更新梯度始终相同，而MSE则不同： MSE损失的梯度随损失增大而增大，而损失趋于0时则会减小。

使用MAE训练神经网络最大的一个问题就是不变的大梯度，这可能导致在使用梯度下降快要结束时，错过了最小点，为了解决这个缺陷，我们可以使用变化的学习率，在损失接近最小值时降低学习率。而对于MSE，梯度会随着损失的减小而减小，这使得在训练结束时，使用MSE模型的结果会更精确。

Loss选择建议：

MSE： 如果异常点代表在商业中很重要的异常情况，并且需要被检测出来
MAE： 如果只把异常值当作受损数据

Huber损失

Huber损失是绝对误差，只是在误差很小时，就变为平方误差。

当δ很大时，等价为MSE曲线，当δ很小时，等价为MAE曲线。 \(L_\delta(y,f(x))=\{ { {1\over2}(y-f(x))^2 \qquad for|y-f(x)|<\delta \atop {\delta|y-f(x)|-{1\over2}\delta^2 \qquad otherwise} }\)

LogLoss

对数损失(Logarithmic Loss), 即对数似然损失(Log-likelihood Loss), 也称交叉熵损失(cross-entropy Loss)。

对数损失通过惩罚错误的分类,实现对分类器的准确度(Accuracy)的量化。最小化对数损失基本等价于最大化分类器的准确度。

当使用sigmoid作为激活函数的时候，常用交叉熵损失函数而不用均方误差损失函数，因为它可以完美解决平方损失函数权重更新过慢的问题，具有“误差大的时候，权重更新快；误差小的时候，权重更新慢”的良好性质。

#!/usr/bin/env python
# -*- coding: utf8 -*-
# y_true: list, the true labels of input instances 
# y_pred: list, the probability when the predicted label of input instances equals to 1
def logloss(y_true, y_pred, eps=1e-15):
    import numpy as np

    # Prepare numpy array data
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    assert (len(y_true) and len(y_true) == len(y_pred))

    # Clip y_pred between eps and 1-eps
    p = np.clip(y_pred, eps, 1-eps)
    loss = np.sum(- y_true * np.log(p) - (1 - y_true) * np.log(1-p))

    return loss / len(y_true)

def unitest():
    y_true = [0, 0, 1, 1]
    y_pred = [0.1, 0.2, 0.7, 0.99]

    print ("Use self-defined logloss() in binary classification, the result is {}".format(logloss(y_true, y_pred)))

    from sklearn.metrics import log_loss
    print ("Use log_loss() in scikit-learn, the result is {} ".format(log_loss(y_true, y_pred)))

if __name__ == '__main__':
    unitest()

exponential loss

指数损失函数，对离群点、噪声非常敏感。经常用在AdaBoost算法中。

评价指标

如何评估机器学习算法模型是任何项目中一个非常重要的环节。分类问题一般会选择准确率（Accuracy）或者AUC作为metric，回归问题使用MSE。上述损失函数大部分可以直接作为评价指标来使用。

回归问题

MSE

均方误差 (Mean Square Error) \(MSE={1\over n}{\sum^{n}_{i=1}(\hat{y_i} -{y_i})^2}\)

范围[0,+∞)，当预测值与真实值完全吻合时等于0，即完美模型；误差越大，该值越大。

RMSE

均方根误差 (Root Mean Square Error) \(RMSE=\sqrt {MSE} = \sqrt {\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2}\)

数量级上比较直观，比如RMSE=10，可以认为回归效果相比真实值平均相差10。

MAE

平均绝对误差(Mean Absolute Error) \(MAE=\frac{1}{n} \sum_{i=1}^{n} |\hat{y}_i - y_i|\)

MAPE

平方绝对百分比误差 (Mean Absolute Percentage Error) \(MAPE=\frac{100\%}{n}\sum_{i=1}^n |\frac{ \hat{y}_i - y_i }{ y_i }|\)

当真实值有数据等于0时，存在分母0除问题，该公式不可用。

SMAPE

对称平均绝对百分比误差 (Symmetric Mean Absolute Percentage Error) \(SMAPE=\frac{100\%}{n}\sum_{i=1}^n \frac{ |\hat{y}_i - y_i| }{ (|\hat{y}_i| + |y_i|)/2 }\)

R Squared

决定系数 (coefficient of determination) \(R^2=1-{\frac {\sum _i (\hat y_i-y_i)^2}{\sum _i (\overline y-y_i)^2}}\)

分母代表baseline（平均值）的误差，分子代表模型的预测结果产生的误差；

预测结果越大越好，R为1说明完美拟合，为0说明和baseline一致；

分类问题

Confusion Matrix

混淆矩阵，后续多个指标的基础。

eg. 二类混淆矩阵(训练目的：减少FP、FN)

	预测正例	预测反例
真实正例	TP 真正例	FN 假反例
真实反例	FP 假反例	TN 真反例

Accuracy

准确率：当样本类别均衡时，Accuracy是一个很好的指标。但在样本不平衡的情况下，产生效果较差。 \(Acc=\frac {TP+TN}{TP+TN+FP+FN}\)

Precision

精准率：预测为正例的样本中有多少实际为正。 \(P=\frac {TP}{TP+FP}\)

Recall

召回率：实际为正例的样本有多少被预测为正。 \(R=\frac {TP}{TP+FN}\)

P-R曲线

通过选择不同的阈值，得到Recall和Precision，以Recall为横坐标，Precision为纵坐标得到的曲线图。

加权调和平均&调和平均

beta>1时召回率（Recall）影响更大。

beta<1时，精确率（Precision）影响更大。 \(F_\beta=\frac{(1+\beta^2)PR}{\beta^2P+R},(\beta=1时)F_1=\frac {2PR}{P+R}\)

ROC-AUC

Area Under Curve(AUC) 是二分类问题中使用非常广泛的一个评价指标。AUC的本质是，任取一个正样本和负样本，模型输出正样本的值大于负样本值的概率。构成AUC的两个基本指标是假正例率和真正例率。

横轴-假正例率： 实际为负的样本多少被预测为正。FPR。
纵轴-真正例率： 实际为正的样本多少被预测为正。TPR。

TPR和FPR的范围均是[0,1]，通过选择不同的阈值得到TPR和FPR，然后绘制ROC曲线。ROC曲线下的面积为AUC值。

代码

# coding=utf-8
import numpy as np
from sklearn import metrics
y_true=np.array([1.1,3.3,5.5,7.7])
y_pred=np.array([1.0,3.0,5.0,7.0])

# MSE
def MSE(true, pred):
    return np.sum((true - pred)**2)
mse=metrics.mean_squared_error(y_true,y_pred)
# RMSE
rmse=np.sqrt(mse)
# MAE
def mae(true, pred):
    return np.sum(np.abs(true - pred))
mae=metrics.mean_absolute_error(y_true,y_pred)
# MAPE
mape=np.mean(np.abs(y_pred-y_true)/y_true)*100
#SMPAE
smape=np.mean(2*np.abs(y_pred-y_true)/(np.abs(y_pred)+np.abs(y_true)))*100
# R Squared
RS=metrics.r2_score(y_true,y_pred)
# huber loss
def huber(true, pred, delta):
    loss = np.where(np.abs(true-pred) < delta , 0.5*((true-pred)**2), delta*np.abs(true - pred) - 0.5*(delta**2))
    return np.sum(loss)

y_trues = [1,1,1,1,0,0,1,1,1,0,0]
y_preds = [1,1,1,0,1,1,0,1,1,1,0] 

# ACC准确率
acc=metrics.accuracy_score(y_trues,y_preds)
# Precision精准率
P=metrics.precision_score(y_trues,y_preds)
# Recall召回率
R=metrics.recall_score(y_trues,y_preds)
# F
F=metrics.fbeta_score(y_trues,y_preds,beta=1)

学习率

学习率 (learning rate)，控制模型的 学习进度 。

	学习率大	学习率小
学习速度	快	慢
使用时间点	刚开始训练时	一定轮数过后
副作用	1.易损失值爆炸；2.易振荡。	1.易过拟合；2.收敛速度慢。

学习率设置

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。
一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。

Note： 如果是 迁移学习 ，由于模型已在原始数据上收敛，此时应设置较小学习率 (≤10−4≤10−4) 在新数据上进行微调。

目标函数损失值曲线

理想情况下曲线：滑梯式下降曲线初始时上扬：初始学习率过大导致振荡，应减小学习率，并从头开始训练曲线初始时强势下降没多久归于水平：后期学习率过大导致无法拟合，应减小学习率，并重新训练后几轮。曲线全程缓慢：初始学习率过小导致收敛慢，应增大学习率，并从头开始训练。

超参数 Acemyzoe

损失函数

tain loss & test loss

回归问题

平均损失函数（最小二乘法）

平均值绝对误差（L1损失）——MAE

MAE（L1损失） VS MSE（L2损失）

Huber损失

LogLoss

exponential loss

评价指标

回归问题

MSE

RMSE

MAE

MAPE

SMAPE

R Squared

分类问题

Confusion Matrix

Accuracy

Precision

Recall

P-R曲线

加权调和平均&调和平均

ROC-AUC

代码

学习率

学习率设置

目标函数损失值曲线