Поскольку экспоненциальные скользящие средние градиента <math> m_w ^ {(t)}</math> и квадрата градиента <math> v_w ^ {(t)}</math> инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок <math>\hat{m}_w ^ {(t)}</math> и <math>\hat{v}_w ^ {(t)}</math> вводится коэффициент <math>\tfrac{1}{1 - \beta_{1/2}^t}</math>. | Поскольку экспоненциальные скользящие средние градиента <math> m_w ^ {(t)}</math> и квадрата градиента <math> v_w ^ {(t)}</math> инициализируются вектором из нулей, на первых итерациях обучения возникнет смещение в сторону нуля. Для компенсации этого смещения и получения более точных оценок <math>\hat{m}_w ^ {(t)}</math> и <math>\hat{v}_w ^ {(t)}</math> вводится коэффициент <math>\tfrac{1}{1 - \beta_{1/2}^t}</math>. |