如题,很多优化器比较的文章都会说adam优化器相比于SGD等对内存需求较小,为什么呢?
hmm 为什么内存小呢?Adam要存更多的states。我觉得现在公认的一件事是:adam确实收敛快,但是最后的收敛点不如SGD。
我还是一般会用sgd。
adam比起最普通的sgd,要多存m和v两个和梯度g同等大小的状态,内存用量怎么可能更少。。。
你们问题似乎错了,bert中提到adam内存消耗比较多
引用:
Optimizer: The default optimizer for BERT is Adam, which requires a lot of extra memory to store them
andv
vectors. Switching to a more memory efficient optimizer can reduce memory usage, but can also affect the results. We have not experimented with other optimizers for fine-tuning.
因为你看的文章说错了
我们的团队人数
我们服务过多少企业
我们服务过多少家庭
我们设计了多少方案