当前所在位置: 主页 > 耀世新闻 > 行业动态

为什么adam优化器相比而言对内存需求较小?

如题,很多优化器比较的文章都会说adam优化器相比于SGD等对内存需求较小,为什么呢?

hmm 为什么内存小呢?Adam要存更多的states。我觉得现在公认的一件事是:adam确实收敛快,但是最后的收敛点不如SGD。

我还是一般会用sgd。

如何选择优化器 optimizer

adam比起最普通的sgd,要多存m和v两个和梯度g同等大小的状态,内存用量怎么可能更少。。。

你们问题似乎错了,bert中提到adam内存消耗比较多


引用:

Optimizer: The default optimizer for BERT is Adam, which requires a lot of extra memory to store themandvvectors. Switching to a more memory efficient optimizer can reduce memory usage, but can also affect the results. We have not experimented with other optimizers for fine-tuning.

因为你看的文章说错了


平台注册入口