请用简练的语言(2~3句话)回答以下问题:
1) 为什么一般需要划分出额外的校验集(validation set)用于超参数调整,而不选择直接使用测试集(test set)?
2) 请解释何为鞍点(saddle point)?批量梯度下降(Batch Gradient Descent)和随机梯度下降(Stochastic Gradient Descent)在应对鞍点时有何不同的表现?