指数式减小,参数的变化十分缓慢,学习过程接近停滞;
又或者,给定层的隐藏单元的维度变得越来越低,参数矩阵的乘积变得越来越线性相关……
汉斯诚恳地询问,江寒知不知道造成这些情况的原因,以及有没有办法解决?
江寒沉思了一会,便在电脑上回信。
“您在来信中反映的问题,我也遇到过,前者,称作梯度消失,或者爆炸,后者,我把它叫做‘网络退化’,这主要是由于当网络层数过深时……”
“有时,增大全局的梯度范数,会导致性能下降,而引入另一种运算,减小梯度范数,却有可能大幅提升网络的性能……”
“至于解决的办法,我也只有一些基于个人经验的小技巧,并不能给出严格的证明。”
“这些小技巧,我打算整理一下,于接下来几个月中发表,请关注XXX或xxx杂志,期待您的指正。”
写完回信,江寒便将其发送了出去,随后继续一丝不苟地刷论文……
时间荏苒,一晃又是两个月过去。
期末考试之后,江寒处理完琐事,便带着方源飞回了松江。
寒假中间,苏婉莹和靳雪雯来了松江。
靳雪雯是来外婆家过年,苏婉莹则自称想夏雨菲了……
四人聚在一起,吃喝玩乐不在话下。
可惜,生活从来不是只有岁月静好,烦恼什么时候也少不了。
江寒最大的烦恼,自然在科研方面。
本章还未完,请点击下一页继续阅读>>>