1784 байта добавлено
, 1 месяц назад
'''Adam'''{{r|DeBa}} (сокращение от «метод адаптивной оценки моментов», {{lang-en|Adaptive Moment Estimation}}) —
Является обновлением оптимизатора [[RMSProp]].
В этом оптимизационном алгоритме используются скользящие средние как градиентов, так и вторых моментов градиентов. Если даны параметры <math> w^ {(t)} </math>, а функция потерь <math> L ^ {(t)} </math>, где <math> t </math> отражает индекс текущей итерации (отчёт начинается с <math> 0 </math>), пересчёт параметра алгоритмом Adam задаётся формулами
: <math>m_w ^ {(t+1)} \leftarrow \beta_1 m_w ^ {(t)} + (1 - \beta_1) \nabla _w L ^ {(t)} </math>
: <math>v_w ^ {(t+1)} \leftarrow \beta_2 v_w ^ {(t)} + (1 - \beta_2) (\nabla _w L ^ {(t)} )^2 </math>
: <math>\hat{m}_w=\frac{m_w ^ {(t+1)}}{1 - \beta_1 ^{t+1}} </math>
: <math>\hat{v}_w=\frac{ v_w ^ {(t+1)}}{1 - \beta_2 ^{t+1}} </math>
: <math>w ^ {(t+1)} \leftarrow w ^ {(t)} - \eta \frac{\hat{m}_w}{\sqrt{\hat{v}_w} + \epsilon} </math>
где <math>\epsilon</math> является малой добавкой, используемой для предотвращения деления на 0, а <math>\beta_1</math> и <math>\beta_2</math> являются коэффициентами забывания для градиентов и вторых моментов градиентов соответственно. Возведение в квадрат и квадратный корень вычисляются поэлементно.
== Примечания ==