Изменения

м
откат правок 178.46.122.114 (обс.) к версии 2A03:D000:3030:B4A4:D908:6AB7:943C:D9FD
Строка 18: Строка 18:  
== Внимание на основе скалярного произведения ==
 
== Внимание на основе скалярного произведения ==
   −
Каждый механизм внимания параметризован матрицами весов запросов <math>W_Q</math>, весов ключей <math>W_K</math>, весов значений <math>W_V</math>. Для вычисления внимания входного вектора <math>X</math> к вектору <math>Y</math>, вычисляются вектора <math>Q=W_Q X</math>, <math>K=W_K X</math>, <math>V=W_V Y</math>. Эти вектора используются для вычисления результата внимания по формуле :
+
Каждый механизм внимания параметризован матрицами весов запросов <math>W_Q</math>, весов ключей <math>W_K</math>, весов значений <math>W_V</math>. Для вычисления внимания входного вектора <math>X</math> к вектору <math>Y</math>, вычисляются вектора <math>Q=W_Q X</math>, <math>K=W_K X</math>, <math>V=W_V Y</math>. Эти вектора используются для вычисления результата внимания по формуле:
    
<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V</math>
 
<math>\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d_k}}\right)V</math>
Анонимный участник