Skip to content

Lesson-8

梯度下降

  • 挑选一个初始值:\(w_0\)
  • 重复迭代参数\(t=1,2,3...\),而:\(w_t = w_{t-1}-\eta \frac{\partial l}{\partial w_{t-1}}\) alt text
  • \(\eta\)是超参数,不可以太小(计算梯度很昂贵),也不可以太大(震荡而不下降)

小批量随机梯度下降

  • 原因:在所有训练集上计算一次损失函数消耗太大
  • 随机采样\(b\)个样本\(i_1,i_2,...i_b\)来近似损失:\(\frac{1}{b} \sum_{i \in I_b} l(x_i,y_i,w)\)
  • \(b\)也是一个重要的超参数,不能太小(很难并行,没有很好利用),不能太大(内存消耗增加)