Lesson-12

权重衰退

用来控制模型的容量，通过控制权重的范围

\[\min l(W,b) \hspace{2em}st.||W||^2\leq \theta\]

一般来说不限制\(b\)
\(\theta\) 较小说明有着更强的正则项

一般来说，我们使用均方范数作为柔性限制，这里指把均方范数加入目标函数中：

\[\min l(W,b) + \frac{\lambda}{2}||W||^2\]

这里的超参数\(\lambda\)控制了正则项的重要性程度 计算梯度：

\[\frac{\partial}{\partial w}(l(W,b)+ \frac{\lambda}{2}||W||^2) = \frac{\partial}{\partial w}l(W,b)+\lambda W\]

因此，时间\(t\)时更新参数：

\[W_{t+1} = W_t - \eta \frac{\partial}{\partial w}(l(W_t,b_t)+ \frac{\lambda}{2}||W_t||^2) = (1-\eta \lambda) W_t - \frac{\partial}{\partial w}l(W_t,b_t)\]

我们发现，\(1-\eta \lambda < 1\)，所以被称为权重衰退，用来防止过拟合。

本页面最近更新：，更新历史
发现错误？想一起完善？在 GitHub 上编辑此页！
本页面贡献者：OI-wiki
本页面的全部内容在协议之条款下提供，附加条款亦可能应用