Изменения
мСтрока 6:
Строка 6:
− +
Строка 60:
Строка 60:
− +
− +
Строка 70:
Строка 70:
− +
категория
== Архитектура сети ==
== Архитектура сети ==
Архитектура трансформера состоит из кодировщика и декодировщика. Кодировщик получает на вход [[Векторное представление слов|векторизованую последовательность]] с позиционной информацией. Декодировщик получает на вход часть этой последовательности и выход кодировщика. Кодировщик и декодировщик состоят из слоев. Слои кодировщика последовательно передают результат следующему слою в качестве его входа. Слои декодировщика последовательно передают результат следующему слою вместе с результатом кодировщика в качестве его входа.
Архитектура трансформера состоит из кодировщика и декодировщика. Кодировщик получает на вход [[Векторное представление слов|векторизованую последовательность]] с позиционной информацией. Декодировщик получает на вход часть этой последовательности и выход кодировщика. Кодировщик и декодировщик состоят из слоев. Слои кодировщика последовательно передают результат следующему слою в качестве его входа. Слои декодировщика последовательно передают результат следующему слою вместе с результатом кодировщика в качестве его входа.
Каждый кодировщик состоит из механизма самовнимания (вход из предыдущего слоя) и [[Нейронная сеть с прямой связью|нейронной сети с прямой связью]] (вход из механизма самовнимания). Каждый декодировщик состоит из механизма самовнимания (вход из предыдущего слоя), механизма внимания к результатам кодирования (вход из механизма самовнимания и кодировщика) и [[Нейронная сеть с прямой связью|нейронной сети с прямой связью]] (вход из механизма внимания).
Каждый кодировщик состоит из механизма самовнимания (вход из предыдущего слоя) и [[Нейронная сеть с прямой связью|нейронной сети с прямой связью]] (вход из механизма самовнимания). Каждый декодировщик состоит из механизма самовнимания (вход из предыдущего слоя), механизма внимания к результатам кодирования (вход из механизма самовнимания и кодировщика) и [[Нейронная сеть с прямой связью|нейронной сети с прямой связью]] (вход из механизма внимания).
|archive-url = https://web.archive.org/web/20201102113452/https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
|archive-url = https://web.archive.org/web/20201102113452/https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
|url-status = live
|url-status = live
}}</ref>.
}}</ref>.
На основе архитектурной модели трансформер была создана ''модель только с декодировщиком'' (Decoder-only model), из которой, в результате пред-обучения на больших объемах языковых данных создана серия моделей '''''г'''енеративных '''п'''редобученных '''т'''рансформеров'', известных как [[GPT]]. В частности, на основе GPT версии 3.5, модифицированной с использованием усиления модели GPT способности следовать предложенных пользователем командам (модель InstructGPT) был создан специальный генеративный ИИ чатбот (Generative AI chatbot) [[ChatGPT]].
На основе архитектурной модели трансформер была создана ''модель только с декодировщиком'' (Decoder-only model), из которой, в результате пред-обучения на больших объемах языковых данных создана серия моделей '''''г'''енеративных '''п'''редобученных '''т'''рансформеров'', известных как [[GPT]]. В частности, на основе GPT версии 3.5, модифицированной с использованием усиления модели GPT способности следовать предложенных пользователем командам (модель InstructGPT) был создан специальный генеративный ИИ чатбот (Generative AI chatbot) [[ChatGPT]].
== Примечания ==
== Примечания ==
{{Генеративный ИИ}}
{{Генеративный ИИ}}
[[Категория:Искусственные нейронные сети]]
[[Категория:Нейронные сети]]