激活函数、损失函数与超参数

xiaoxiao2021-02-28  169

激活函数: 激活函数的特点: 输入:标量, 输出;标量 很多激活函数如果画图,都是S形的,称为Sigmoid函数。 常见的有6种: 1.线性变换Linear:f(x) = Wx,用于输入层。直线。 2.Sigmoid函数:可以减少极端值而不用移除它们。0-1之间的S形渐近线。把x的正负无穷转为y的0-1,大多数都在0或1附近。为每个类输出一个独立概率。 人还是车?用sigmoid函数 ,是人吗?是车吗? 3.Tanh:tanh(x) = sinh(x) / cosh(x). 双曲线三角函数,形状类似Sigoid,但值域在[-1,1],可以处理负值。 4.Hard Tanh:与Tanh类似,x>1,视为1,x<-1视为-1. 5.Softmax:逻辑回归的一般化,可用于连续数据,可处理多决策边界。返回互斥类的概率分布。是大人吗?: 60% 是小孩吗?:40%   Pi= Vi/V的总和 总结:sigmoid将一个real value映射到(0,1)的区间(当然也可以是(-1,1)),这样可以用来做二分类。  而softmax把一个k维的real value向量(a1,a2,a3,a4….)映射成一个(b1,b2,b3,b4….)其中bi是一个0-1的常数,然后可以根据bi的大小来进行多分类的任务,如取权重最大的一维。  一种变形为hierarchical softmax,把标签拆为树形分类,在每个节点上用softmax. 6.Rectified Linear (ReLU):f(x) = max(0, x),可处理坡度消失或爆炸的问题,比sigmoid和tanh好使。 7.Leaky ReLU:f(x)=x if x>0 else f(x)=0.01x 8.Softplus:ReLU的光滑版本。f(x) = ln[ 1 + exp(x) ] 小结: 对于输入层激活函数,常见的是线性;其它各层主要看模型任务,如果是0-1分类,首选ReLU或其变体,再考虑S形激活函数,如Sigmoid函数。如果是多分类任务,选择softmax. softmax还适用于连续值预测。 损失函数: 损失函数的值只依赖于权重W和偏好b,也就是网络状态。 适用于回归任务的损失函数常见四种: 1. 均值平方差MSE。欧几里德距离,是一个意思。是凸形损失函数。但在隐藏层无效,此时对于参数有多个解。使用广泛,但对例外样本敏感。 预测值-实际值, 后面的公式都在这上面做文章。 2. MAE Mean absolute error loss, 不平方了,用绝对值。使用广泛。 3. MSLE Mean squared log error: 先对数一下预测值和实际值,然后和MSE一样(再求差,求平方) 4. MAPE Mean absolute percentage error: 在MAE的基础上,除个实际值,乘100. 当输出范围较大时,考虑第三、四种损失函数。但更多的时候是先标准化输出,再使用第一、二种。 适用于分类任务的损失函数: 1.Hinge loss  0-1分类中常用,是凸形损失函数。 2.Logistic loss   当类别数k = 2 时,softmax 回归退化为 logistic 回归。这表明 softmax 回归是 logistic 回归的一般形式。参见:http://blog.csdn.net/zhangliyao22/article/details/48379291 预测最大的可能性。 二元分类 3.Negative log likelihood 当类别大于2时,就是交叉熵.是效果较好的分类损失函数。 适用于重建的损失函数:限受波尔兹曼机,自动解码器等。

1. KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy)

超参数: 与模型参数不同,超参数是为了让模型更好更快,处理模型优化和模型选择,保证模型不欠拟合和过拟合。 1. 学习率: 大的误差,大的坡度,大的学习率会导致大的step. 但大的学习率会导致模型在最优点两边来回跳。使用一个适中的静态学习率,然后试两个方向。更好的方法是学习率随时间变化。 2. 正则化Regularization。主要为了控制过拟合。 L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 L2范数: ||W||2。它也不逊于L1范数,它有两个美称,在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减weight decay”。 3.动量Momentum:有助全局优化。 4.稀疏参数Sparsity:对于某些输入,只有某些特征相关。阻止网络学习,与bias在这一点上相反。
转载请注明原文地址: https://www.6miu.com/read-35051.html

最新回复(0)