Изменения
→Внимание на основе скалярного произведения
<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V</math>
<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V</math>
== Использование ==
Трансформеры используются в [[Яндекс.Переводчик]]е<ref>{{cite web
Трансформеры используются в [[Яндекс.Переводчик]]е<ref>{{cite web