| Поскольку экспоненциальные скользящие средние градиента <math> m_w ^ {(t)}</math> и квадрата градиента <math> v_w ^ {(t)}</math> инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок <math>\hat{m}_w ^ {(t)}</math> и <math>\hat{v}_w ^ {(t)}</math> вводится коэффициент <math>\tfrac{1}{1 - \beta_{1/2}^t}</math>. | | Поскольку экспоненциальные скользящие средние градиента <math> m_w ^ {(t)}</math> и квадрата градиента <math> v_w ^ {(t)}</math> инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок <math>\hat{m}_w ^ {(t)}</math> и <math>\hat{v}_w ^ {(t)}</math> вводится коэффициент <math>\tfrac{1}{1 - \beta_{1/2}^t}</math>. |
− | Первоначальное доказательство, устанавливающее сходимость Adam, было неполным, и последующий анализ показал, что Adam сходится не для всех выпуклых целей<ref>{{cite conference |last1=Reddi |first1=Sashank J. |last2=Kale |first2=Satyen |last3=Kumar |first3=Sanjiv |date=2018 |title=On the Convergence of Adam and Beyond |url=https://openreview.net/forum?id=ryQu7f-RZ |conference=6th International Conference on Learning Representations (ICLR 2018) |arxiv=1904.09237 |doi=}}</ref><ref>{{Cite thesis |last=Rubio |first=David Martínez |title=Convergence Analysis of an Adaptive Method of Gradient Descent |date=2017 |access-date=5 января 2024 г. |degree=Master |publisher=University of Oxford |url=https://damaru2.github.io/convergence_analysis_hypergradient_descent/dissertation_hypergradients.pdf}}</ref>. Несмотря на это, Adam продолжает использоваться из-за его высокой эффективности на практике<ref>{{cite conference |last1=Zhang |first1=Yushun |last2=Chen |first2=Congliang |last3=Shi |first3=Naichen |last4=Sun |first4=Ruoyu |last5=Luo |first5=Zhi-Quan |date=2022 |title=Adam Can Converge Without Any Modification On Update Rules |conference=Advances in Neural Information Processing Systems 35 (NeurIPS 2022) |arxiv=2208.09632 |book-title=Advances in Neural Information Processing Systems 35}}</ref> и, возможно, общей [[Ригидность|ригидности]] [[Сообщество ML-разработчиков|сообщества ML-разработчиков]], оптимизировавшего используемый технологический стек под наилучшую работу с ADAM<ref>[https://parameterfree.com/2020/12/06/neural-network-maybe-evolved-to-make-adam-the-best-optimizer/ Neural Networks (Maybe) Evolved to Make Adam The Best Optimizer. Bremen79. 6.12.2020.]</ref>. В качестве примера подобных действий приводится тот факт, что, хотя в исходных статьях<ref>[https://github.com/mintisan/awesome-kan Awesome KAN(Kolmogorov-Arnold Network)]</ref> по [[Сети Колмогорова-Арнольда|сетям Колмогорова-Арнольда]] ([[Сети Колмогорова-Арнольда|KAN]]) в качестве оптимизатора использовался приближённый алгоритм оптимизации второго порядка [[LBFGS]], в очень большом числе работ других исследователей, рассматривавших KAN, он был заменён на Adam. | + | Первоначальное доказательство, устанавливающее сходимость Adam, было неполным, и последующий анализ показал, что Adam сходится не для всех выпуклых целей<ref>{{cite conference |last1=Reddi |first1=Sashank J. |last2=Kale |first2=Satyen |last3=Kumar |first3=Sanjiv |date=2018 |title=On the Convergence of Adam and Beyond |url=https://openreview.net/forum?id=ryQu7f-RZ |conference=6th International Conference on Learning Representations (ICLR 2018) |arxiv=1904.09237 |doi=}}</ref><ref>{{Cite thesis |last=Rubio |first=David Martínez |title=Convergence Analysis of an Adaptive Method of Gradient Descent |date=2017 |access-date=5 января 2024 г. |degree=Master |publisher=University of Oxford |url=https://damaru2.github.io/convergence_analysis_hypergradient_descent/dissertation_hypergradients.pdf}}</ref>. Несмотря на это, Adam продолжает использоваться из-за его высокой эффективности на практике<ref>{{cite conference |last1=Zhang |first1=Yushun |last2=Chen |first2=Congliang |last3=Shi |first3=Naichen |last4=Sun |first4=Ruoyu |last5=Luo |first5=Zhi-Quan |date=2022 |title=Adam Can Converge Without Any Modification On Update Rules |conference=Advances in Neural Information Processing Systems 35 (NeurIPS 2022) |arxiv=2208.09632 |book-title=Advances in Neural Information Processing Systems 35}}</ref> и, возможно, общей [[Ригидность|ригидности]] [[Сообщество ML-разработчиков|сообщества ML-разработчиков]], оптимизировавшего используемый технологический стек под наилучшую работу с Adam вместо поиска более эффективных для этой задачи<ref>Для ряда других приложений, не относящихся к машинному обучению, Adam не является особенно эффективным.</ref> алгоритмов оптимизации<ref>[https://parameterfree.com/2020/12/06/neural-network-maybe-evolved-to-make-adam-the-best-optimizer/ Neural Networks (Maybe) Evolved to Make Adam The Best Optimizer. Bremen79. 6.12.2020.]</ref>. В качестве примера подобных действий приводится тот факт, что, хотя в исходных статьях<ref>[https://github.com/mintisan/awesome-kan Awesome KAN(Kolmogorov-Arnold Network)]</ref> по [[Сети Колмогорова-Арнольда|сетям Колмогорова-Арнольда]] ([[Сети Колмогорова-Арнольда|KAN]]) в качестве оптимизатора использовался приближённый алгоритм оптимизации второго порядка [[LBFGS]], в очень большом числе работ других исследователей, рассматривавших KAN, он был заменён на Adam. |