Изменения
== Примечания == {{примечания}}
[[Файл:Full_GPT_architecture.png|справа|мини|Оригинальная языковая модель GPT]]
[[Файл:Full_GPT_architecture.png|справа|мини|Оригинальная языковая модель GPT]]
'''Generative pre-trained transformer''' или '''GPT''' ({{lang-ru|[[Генеративный искусственный интеллект|Генеративный]] [[Глубокое обучение|предобученный]] [[Трансформер (модель машинного обучения)|трансформер]]}}) - это тип нейронных [[Языковая модель|языковых моделей]], впервые представленных компанией [[OpenAI]], которые обучаются на больших наборах текстовых данных, чтобы [[Генератор текста|генерировать текст]], схожий с человеческим. [[Глубокое обучение|Предобучение]] относится к начальному процессу обучения на корпусе, в результате которого [[Языковая модель|модель]] учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объемов данных. GPT являются "трансформерами", которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки [[Естественный язык|естественного языка]] ([[Обработка естественного языка|NLP]]), таких как [[Генератор текста|генерация текста]], [[машинный перевод]] и [[Классификация документов|классификация текста]].
'''Generative pre-trained transformer''' или '''GPT''' ({{lang-ru|[[Генеративный искусственный интеллект|Генеративный]] [[Глубокое обучение|предобученный]] [[Трансформер (модель машинного обучения)|трансформер]]}}) — это тип нейронных [[Языковая модель|языковых моделей]], впервые представленных компанией [[OpenAI]], которые обучаются на больших наборах текстовых данных, чтобы [[Генератор текста|генерировать текст]], схожий с человеческим. [[Глубокое обучение|Предобучение]] относится к начальному процессу обучения на корпусе, в результате которого [[Языковая модель|модель]] учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки [[Естественный язык|естественного языка]] ([[Обработка естественного языка|NLP]]), таких как [[Генератор текста|генерация текста]], [[машинный перевод]] и [[Классификация документов|классификация текста]].
== Языковые модели GPT от OpenAI ==
== Языковые модели GPT от OpenAI ==
{{Further|OpenAI}}
{{Further|OpenAI}}
11 июня 2018 года компания OpenAI опубликовала статью под названием "Improving Language Understanding by Generative Pre-Training", в которой был представлен Генеративный Предобученный Трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали [[обучение с учителем]] на больших объемах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=22 June 2017|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=31 March 2020|access-date=23 January 2021|quote=}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov" />. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный Предобученный Трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка, в основном использовали [[обучение с учителем]] на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=22 June 2017|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=31 March 2020|access-date=23 January 2021|quote=}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov" />. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
# несобственное генеративное "предварительное" обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
# несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
# собственное {{Не переведено 3|Дискриминационная модель|дискриминативное (различительное)|en|Discriminative model}} "дообучающее" обучение, на котором эти параметры адаптируются к конкретной задаче.
# собственное {{Не переведено 3|Дискриминационная модель|дискриминативное (различительное)|en|Discriminative model}} «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.
{| class="wikitable"
{| class="wikitable"
|{{Не переведено 3|GPT-2|GPT-2|en|GPT-2}}
|{{Не переведено 3|GPT-2|GPT-2|en|GPT-2}}
|Общее
|Общее
|GPT-1, но с измененной {{Не переведено 3|Пакетная нормализация|нормализацией|en|Batch normalization}}.
|GPT-1, но с изменённой {{Не переведено 3|Пакетная нормализация|нормализацией|en|Batch normalization}}.
|1.5 миллиардов ({{рост}}1273000%)
|1.5 миллиардов ({{рост}}1273000 %)
|WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на [[Reddit]].
|WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на [[Reddit]].
|14 февраля 2019
|14 февраля 2019
|[[GPT-3]]
|[[GPT-3]]
|Общее
|Общее
|GPT-2, но с изменениями для возможности масштабирования в большем объеме.
|GPT-2, но с изменениями для возможности масштабирования в большем объёме.
|175 миллиардов ({{рост}}11566%)
|175 миллиардов ({{рост}}11566 %)
|570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также {{Не переведено 3|BookCorpus|BookCorpus|en|BookCorpus}}.
|570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также {{Не переведено 3|BookCorpus|BookCorpus|en|BookCorpus}}.
|11 июня 2020<ref>{{Cite web|language=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref>
|11 июня 2020<ref>{{Cite web|language=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref>
|-
|-
== Другие (производные) модели GPT ==
== Другие (производные) модели GPT ==
После того, как [[OpenAI]] выпустила свою модель GPT-3, [[EleutherAI]] выпустила ряд [[Большие языковые модели|больших языковых моделей]] (LLM) с [[Открытое программное обеспечение|открытым исходным кодом]], и ее модель [[GPT-J]] привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.
После того, как [[OpenAI]] выпустила свою модель GPT-3, [[EleutherAI]] выпустила ряд [[Большие языковые модели|больших языковых моделей]] (LLM) с [[Открытое программное обеспечение|открытым исходным кодом]], и её модель [[GPT-J]] привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.
{| class="wikitable"
{| class="wikitable"
|+Основные GPT от других разработчиков
|+Основные GPT от других разработчиков
|Параллельный декодер
|Параллельный декодер
|6 миллиардов
|6 миллиардов
|Набор данных объемом 825 ГБ с [[Открытое программное обеспечение|открытым исходным кодом]] (называемый «кучей»)
|Набор данных объёмом 825 ГБ с [[Открытое программное обеспечение|открытым исходным кодом]] (называемый «кучей»)
|9 июня 2021
|9 июня 2021
|[[EleutherAI]]
|[[EleutherAI]]
|}
|}
== Ссылки ==
== Примечания ==
{{reflist}}
{{примечания}}
{{Обработка естественного языка}}
{{Обработка естественного языка}}