请用简练的语言（2~3句话）回答以下问题： 1) 为什么一般需要划分出额外的校验集(validation set)用于超参数调整，而不选择直接使用测试集(test set)？ 2) 请解释何为鞍点（saddle point)？批量梯度下降（Batch Gradient Descent)和随机梯度下降(Stochastic Gradient Descent)在应对鞍点时有何不同的表现？ 3) 当一个模型训练完后若发现训练集上的loss非常高，请问如何在不对代码进行全面排查的前提下，以最快速度定位是模型本身的拟合能力不足还是代码的实现存在某种错误？ 4) 假设我们在训练一个使用Sigmoid激活函数的全连接神经网络。在对其权重进行初始化时，为什么一般会倾向于让初始值的绝对值偏小？如果需要这样，为何不直接使用0进行初始化？

问答题

请用简练的语言（2~3句话）回答以下问题：

1) 为什么一般需要划分出额外的校验集(validation set)用于超参数调整，而不选择直接使用测试集(test set)？

2) 请解释何为鞍点（saddle point)？批量梯度下降（Batch Gradient Descent)和随机梯度下降(Stochastic Gradient Descent)在应对鞍点时有何不同的表现？

3) 当一个模型训练完后若发现训练集上的loss非常高，请问如何在不对代码进行全面排查的前提下，以最快速度定位是模型本身的拟合能力不足还是代码的实现存在某种错误？

4) 假设我们在训练一个使用Sigmoid激活函数的全连接神经网络。在对其权重进行初始化时，为什么一般会倾向于让初始值的绝对值偏小？如果需要这样，为何不直接使用0进行初始化？

查看答案

上一题

下一题

题目信息

校招真题

正确率

点击

我的笔记