资讯

给定误差函数、学习率甚至目标变量的规模的选择,训练神经网络会变得不稳定。 训练期间权重的大量更新会导致数值溢出或下溢,通常称为“梯度爆炸” 梯度爆炸的问题在递归神经网络中更常见,例如给定在数百个输入时间步长上展开的梯度累积的 LSTMs。