以下关于深度学习优化器的说法正确的是:
具有动量项的SGD在梯度改变方向时可以增加更新幅度,加速优化过程
AdaGrad可以自适应调整学习率,不依赖于手工设置的全局学习率
具有Nesterov项的SGD可以在梯度有较大跳跃时,对其进行校正
Adam利用一阶和二阶梯度动态调整每个参数的学习率