Skip to content

Lesson-12

权重衰退

用来控制模型的容量,通过控制权重的范围

minl(W,b)st.||W||2θ
  • 一般来说不限制b
  • θ 较小说明有着更强的正则项

一般来说,我们使用均方范数作为柔性限制,这里指把均方范数加入目标函数中:

minl(W,b)+λ2||W||2

这里的超参数λ控制了正则项的重要性程度 计算梯度:

w(l(W,b)+λ2||W||2)=wl(W,b)+λW

因此,时间t时更新参数:

Wt+1=Wtηw(l(Wt,bt)+λ2||Wt||2)=(1ηλ)Wtwl(Wt,bt)

我们发现,1ηλ<1,所以被称为权重衰退,用来防止过拟合。