Skip to content

Lesson-12

权重衰退

用来控制模型的容量,通过控制权重的范围

\[\min l(W,b) \hspace{2em}st.||W||^2\leq \theta\]
  • 一般来说不限制\(b\)
  • \(\theta\) 较小说明有着更强的正则项

一般来说,我们使用均方范数作为柔性限制,这里指把均方范数加入目标函数中:

\[\min l(W,b) + \frac{\lambda}{2}||W||^2\]

这里的超参数\(\lambda\)控制了正则项的重要性程度 计算梯度:

\[\frac{\partial}{\partial w}(l(W,b)+ \frac{\lambda}{2}||W||^2) = \frac{\partial}{\partial w}l(W,b)+\lambda W\]

因此,时间\(t\)时更新参数:

\[W_{t+1} = W_t - \eta \frac{\partial}{\partial w}(l(W_t,b_t)+ \frac{\lambda}{2}||W_t||^2) = (1-\eta \lambda) W_t - \frac{\partial}{\partial w}l(W_t,b_t)\]

我们发现,\(1-\eta \lambda < 1\),所以被称为权重衰退,用来防止过拟合。