torch batch_norm计算举例
1. Relu
1.1 优缺点
- 优点
- 使用Relu的SGD算法的收敛速度比sigmoild快
- 在x>0上,不会出现梯度饱和和梯度小时的问题
- 计算复杂度低,不需要进行指数运算
- 缺点
- Relu的输出不是0均值的,它把所有小于的0都置位0,使得所有参数的更新方向都相同,导致了zigzag现象
- 会有神经元坏死现象
- Relu不会对数据做幅度的压缩
1.2 zigzag现象(待更新,不同优化算法不同)
模型中所有的参数在一次梯度更新的过程中,更新方向相同。各个参数不可以出走和总体梯度下降最快的方向更新, 某一层的
梯度(从loss回传的)
$\partial L/\partial f$ 表示该层之后的梯度(即从loss回传回来的),如果$\partial L/\partial f > 0$
Comments