Lesson-12
权重衰退
用来控制模型的容量,通过控制权重的范围
\[\min l(W,b) \hspace{2em}st.||W||^2\leq \theta\]
- 一般来说不限制\(b\)
- \(\theta\) 较小说明有着更强的正则项
一般来说,我们使用均方范数作为柔性限制,这里指把均方范数加入目标函数中:
\[\min l(W,b) + \frac{\lambda}{2}||W||^2\]
这里的超参数\(\lambda\)控制了正则项的重要性程度 计算梯度:
\[\frac{\partial}{\partial w}(l(W,b)+ \frac{\lambda}{2}||W||^2) = \frac{\partial}{\partial w}l(W,b)+\lambda W\]
因此,时间\(t\)时更新参数:
\[W_{t+1} = W_t - \eta \frac{\partial}{\partial w}(l(W_t,b_t)+ \frac{\lambda}{2}||W_t||^2) = (1-\eta \lambda) W_t - \frac{\partial}{\partial w}l(W_t,b_t)\]
我们发现,\(1-\eta \lambda < 1\),所以被称为权重衰退,用来防止过拟合。
本页面最近更新:,更新历史
发现错误?想一起完善? 在 GitHub 上编辑此页!
本页面贡献者:OI-wiki
本页面的全部内容在 协议之条款下提供,附加条款亦可能应用