Lesson-8
梯度下降
- 挑选一个初始值:\(w_0\)
- 重复迭代参数\(t=1,2,3...\),而:\(w_t = w_{t-1}-\eta \frac{\partial l}{\partial w_{t-1}}\)
- \(\eta\)是超参数,不可以太小(计算梯度很昂贵),也不可以太大(震荡而不下降)
小批量随机梯度下降
- 原因:在所有训练集上计算一次损失函数消耗太大
- 随机采样\(b\)个样本\(i_1,i_2,...i_b\)来近似损失:\(\frac{1}{b} \sum_{i \in I_b} l(x_i,y_i,w)\)
- \(b\)也是一个重要的超参数,不能太小(很难并行,没有很好利用),不能太大(内存消耗增加)
本页面最近更新:,更新历史
发现错误?想一起完善? 在 GitHub 上编辑此页!
本页面贡献者:OI-wiki
本页面的全部内容在 协议之条款下提供,附加条款亦可能应用