처음 warm up
https://arxiv.org/pdf/1706.02677.pdf
낮은것부터 점차 올라가는 warm up
https://arxiv.org/pdf/1812.01187.pdf
반대로 높은것부터 내려오는? 확실하진않음. variance관련 warmup
https://arxiv.org/pdf/1908.03265.pdf
기타 https://papers.nips.cc/paper_files/paper/2019/hash/dc6a70712a252123c40d2adba6a11d84-Abstract.html
Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence
Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to reque
papers.nips.cc
낮은것부터 점차 올라가는 warmup은 training stability을 높이기 위함이고
(처음에는 random init이기 때문에 optimial에서 멀다 -> numerical stability가 떨어짐 => 작은 lr으로 안정화한 후 regular warm up 하는 것)
높은 lr부터 떨어지는 warmup은 local minima 초반 탈출을 위함.. => but optimizer가 잘못된 방향을 오래 기억할 수 있음
그래서 우리는 0부터 시작해서 높은곳까지 올라갔다가 떨어지는건가?