Изменения
Создано переводом страницы «Generative pre-trained transformer»
[[Файл:Full_GPT_architecture.png|справа|мини| Оригинальная модель GPT]]
'''Generative pre-trained transformer''' ('''GPT''') — это семейство [[Большая языковая модель|больших языковых моделей]] (LLM), представленных американской организацией [[Искусственный интеллект|искусственного интеллекта]] [[OpenAI]] в 2018 году. Как и большинство LLM, модели GPT представляют собой [[Нейронная сеть|искусственные нейронные сети]], основанные на архитектуре [[Трансформер (модель машинного обучения)|трансформера]], предварительно обученные [[Обучение без учителя|без учителя]] на больших наборах данных неразмеченного текста и способные [[Генеративный искусственный интеллект|генерировать]] новый человекоподобный текст.
В период с 2018 по 2023 год OpenAI выпустила четыре основные пронумерованные модели GPT, причем каждая новая версия была значительно более функциональной, чем предыдущая, благодаря увеличению размера (измеряемому количеством обучаемых параметров) и обучению. Модели [[GPT-3]], выпущенные в 2020 году, имеют 175 миллиардов параметров и были обучены на 400 миллиардах токенов текста. OpenAI отказалась публиковать данные о размере или обучении своей последней модели [[GPT-4]], сославшись на «конкурентную среду и последствия для безопасности крупномасштабных моделей»<ref name="gpt4-report">{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|author=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16|url-status=live}}</ref>. OpenAI использует эти базовые модели GPT-n в качестве основы для различных других продуктов и технологий, включая модели[[Большая языковая модель|, точно настроенные для выполнения инструкций]], которые, в свою очередь, обеспечивают работу службы чат-ботов [[ChatGPT]].
{| class="wikitable"
Термин «GPT» также используется в названиях некоторых генеративных LLM, не связанных с OpenAI, таких как серия моделей, вдохновленных GPT-3, созданных EleutherAI, <ref>{{Cite web|url=https://www.infoq.com/news/2021/07/eleutherai-gpt-j/|title=EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J}}</ref> и совсем недавняя [[Cerebras|серия из семи моделей,]] созданных [[Cerebras]]<ref>{{Cite press release|url=https://www.businesswire.com/news/home/20230328005366/en/Cerebras-Systems-Releases-Seven-New-GPT-Models-Trained-on-CS-2-Wafer-Scale-Systems|title=News}}</ref>. Крупные компании в других отраслях (например, продажах, финансах) также используют термин «GPT» в названиях своих услуг, включающих или использующих технологию GPT<ref>https://www.fastcompany.com/90862354/salesforces-einsteingpt-may-be-the-most-meaningful-application-of-ai-chatbots-yet</ref><ref>https://www.forbes.com/sites/jamielsheikh/2023/04/05/the-chatgpt-of-finance-is-here-bloomberg-is-combining-ai-and-fintech/?sh=43b4385e3081</ref>.
|+Версии GPT от [[OpenAI]]
== История ==
11 июня 2018 года [[OpenAI]] опубликовала документ под названием «Улучшение понимания языка с помощью генеративного предварительного обучения», в котором был представлен первый ''генеративный предварительно обученный преобразователь'' (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|author=Radford|first=Alec|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}</ref>. До этого самые эффективные нейронные модели НЛП в основном использовали [[обучение с учителем]] на больших объемах размеченных вручную данных. Эта зависимость от обучения с учителем ограничивала их использование в наборах данных, которые не были хорошо аннотированы, а также делала обучение очень больших языковых моделей непомерно дорогим и трудоёмким<ref name="gpt1paper" />.
«Полууправляемый» подход, который OpenAI использовала со своим исходным GPT, включал два этапа: этап неконтролируемого генеративного «предварительного обучения», на котором цель языкового моделирования использовалась для установки начальных параметров, и управляемая дискриминационная «точная настройка». этап, на котором эти параметры были адаптированы к целевой задаче<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|author=Radford|first=Alec|date=11 June 2018|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=26 January 2021|access-date=23 January 2021|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya|url-status=live}}<cite class="citation web cs1" data-ve-ignore="true" id="CITEREFRadfordNarasimhanSalimansSutskever2018">Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). [https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf "Improving Language Understanding by Generative Pre-Training"] <span class="cs1-format">(PDF)</span>. [[OpenAI]]. p. 12. [https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 26 January 2021<span class="reference-accessdate">. Retrieved <span class="nowrap">23 January</span> 2021</span>.</cite></ref>.
== Другие (производные) модели GPT ==
== Базовые модели GPT ==
{| class="wikitable"
{| class="wikitable"
|+Основные GPT от других разработчиков
|+Версии OpenAI GPT
!
! Модель
! Архитектура
!Архитектура
! Количество параметров
!Количество параметров
! Тренировочные данные
!Тренировочные данные
! Дата выпуска
!Дата выпуска
|-
|-
|[[GPT-J]]
| Оригинальный GPT (GPT-1)
|Общее
| 12-уровневый декодер Transformer с 12 головками (без кодировщика), за которым следует linear-softmax.
|Параллельный декодер
| 117 миллионов
|6 миллиардов
| BookCorpus : <ref>{{Cite conference|url=https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html|arxiv=1506.06724|url-status=live}}</ref> 4,5 ГБ текста из 7000 неопубликованных книг разных жанров.
|Набор данных объемом 825 ГБ с [[Открытое программное обеспечение|открытым исходным кодом]] (называемый «кучей»)
| {{Dts|2018|June|11}} <ref>{{Cite web|lang=en-US|url=https://openai.com/research/language-unsupervised|title=Improving language understanding with unsupervised learning|website=openai.com|archive-url=https://web.archive.org/web/20230318210736/https://openai.com/research/language-unsupervised|archive-date=2023-03-18|access-date=2023-03-18|url-status=live}}</ref>
|9 июня 2021
|[[EleutherAI]]
|-
|-
|[[BLOOM (language model)|BLOOM]]
| ГПТ-2
|Общее
| GPT-1, но с измененной нормализацией
|[[Трансформер (модель машинного обучения)|Трансформер]] только для декодера
| 1,5 миллиарда
|176 миллиардов
| WebText: 40 ГБ текста, 8 миллионов документов с 45 миллионов веб-страниц, за которые проголосовали на Reddit.
|Данные 46 [[Естественный язык|естественных языков]] и 13 [[Язык программирования|языков программирования]]; Всего 1,6 терабайт предварительно обработанного текста.
| {{Dts|2019|February|14}}
|6 июля 2022
|[[Hugging Face]]
|-
|-
|[[BioGPT]]
| [[GPT-3|ГПТ-3]]
|[[Биомедицина|Биомедицинский]] контент<ref name="pmid36156661">{{cite journal|author=Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H|display-authors=etal|date=24 September 2022|title=BioGPT: generative pre-trained transformer for biomedical text generation and mining.|url=https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org%2Fcite&retmode=ref&cmd=prlinks&id=36156661|journal=Brief Bioinform|volume=23|issue=6|pages=|doi=10.1093/bib/bbac409|pmc=|pmid=36156661|access-date=7 February 2023|archive-date=1 April 2023|archive-url=https://web.archive.org/web/20230401192557/https://academic.oup.com/bib/article-abstract/23/6/bbac409/6713511?redirectedFrom=fulltext}}</ref><ref>{{cite web|url=https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|title=BioGPT is a Microsoft language model trained for biomedical tasks|author=Matthias Bastian|website=The Decoder|date=2023-01-29|archive-url=https://web.archive.org/web/20230207174627/https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/|archive-date=2023-02-07|access-date=2023-02-07}}</ref>
| GPT-2, но с модификацией, позволяющей увеличить масштаб
| 175 миллиардов
|347 миллионов
| 570 ГБ открытого текста, 0,4 триллиона токенов. В основном CommonCrawl, WebText, английская Википедия и два корпуса книг (Книги1 и Книги2).
| {{Dts|2020|June|11}} <ref>{{Cite web|lang=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref> (затем 15 марта 2022 г., для пересмотра, в конечном итоге получившего название [[GPT-3|GPT-3.5]] )
|-
|-
| [[GPT-4|ГПТ-4]]
| Также обучен как предсказанию текста, так и RLHF; принимает как текст, так и изображения в качестве входных данных. Дальнейшие подробности не разглашаются. <ref name="gpt4-report">{{Cite web|url=https://cdn.openai.com/papers/gpt-4.pdf|title=GPT-4 Technical Report|author=OpenAI|date=2023|archive-url=https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf|archive-date=2023-03-14|access-date=2023-03-16|url-status=live}}<cite class="citation web cs1" data-ve-ignore="true" id="CITEREFOpenAI2023">OpenAI (2023). [https://cdn.openai.com/papers/gpt-4.pdf "GPT-4 Technical Report"] <span class="cs1-format">(PDF)</span>. [https://web.archive.org/web/20230314190904/https://cdn.openai.com/papers/gpt-4.pdf Archived] <span class="cs1-format">(PDF)</span> from the original on 2023-03-14<span class="reference-accessdate">. Retrieved <span class="nowrap">2023-03-16</span></span>.</cite></ref>
| (Недоступен)
| (Недоступен)
| {{Dts|2023|March|14}}
|}
|}
== Ссылки ==
== Связанные модели и продукты ==
В январе 2022 года OpenAI представила InstructGPT, серию моделей, которые были [[Большая языковая модель|точно настроены для выполнения инструкций]] с использованием комбинации обучения [[Обучение с учителем|с учителем]] и [[Обучение с подкреплением на основе отзывов людей|обучения с подкреплением на основе отзывов людей]] (RLHF) на базовых языковых моделях GPT-3.
В ноябре 2022 года OpenAI запустила [[ChatGPT]], интерфейс онлайн-чата, основанный на языковой модели с настройкой инструкций, обученной аналогично InstructGPT.
== Примечания ==
[[Категория:Программное обеспечение по алфавиту]]
{{Примечания|refs=<ref name=instructgpt-blog>{{cite web |title=Aligning language models to follow instructions |url=https://openai.com/research/instruction-following |website=openai.com |access-date=23 March 2023 |archive-date=23 March 2023 |archive-url=https://web.archive.org/web/20230323110040/https://openai.com/research/instruction-following |url-status=live }}</ref>
<ref name=instructgpt-paper>{{cite journal |last1=Ouyang |first1=Long |last2=Wu |first2=Jeff |last3=Jiang |first3=Xu |last4=Almeida |first4=Diogo |last5=Wainwright |first5=Carroll L. |last6=Mishkin |first6=Pamela |last7=Zhang |first7=Chong |last8=Agarwal |first8=Sandhini |last9=Slama |first9=Katarina |last10=Ray |first10=Alex |last11=Schulman |first11=John |last12=Hilton |first12=Jacob |last13=Kelton |first13=Fraser |last14=Miller |first14=Luke |last15=Simens |first15=Maddie |last16=Askell |first16=Amanda |last17=Welinder |first17=Peter |last18=Christiano |first18=Paul |last19=Leike |first19=Jan |last20=Lowe |first20=Ryan |title=Training language models to follow instructions with human feedback |date=4 March 2022 |arxiv=2203.02155 |display-authors=3 }}</ref>
<ref name=chatgpt-blog>{{Cite web |title=Introducing ChatGPT |url=https://openai.com/blog/chatgpt |access-date=2023-03-16 |website=openai.com |language=en-US |archive-date=2023-03-16 |archive-url=https://web.archive.org/web/20230316001700/https://openai.com/blog/chatgpt/ |url-status=live }}</ref>}}
[[Категория:Программное обеспечение с лицензией MIT]]
[[Категория:Большие языковые модели]]
[[Категория:Большие языковые модели]]
[[Категория:Глубокое обучение]]
[[Категория:Страницы с непроверенными переводами]]