Изменения

2 байта добавлено ,  1 год назад
м
Строка 5: Строка 5:  
== Языковые модели GPT от OpenAI ==
 
== Языковые модели GPT от OpenAI ==
 
{{Further|OpenAI}}
 
{{Further|OpenAI}}
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный Предобученный Трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=2018-06-11|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=2021-01-26|access-date=2021-01-23|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали [[обучение с учителем]] на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=2017-06-22|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=2020-03-31|access-date=2021-01-23|quote=}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov" />. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
+
11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)<ref name="gpt1paper">{{Cite web|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|title=Improving Language Understanding by Generative Pre-Training|date=2018-06-11|pages=12|publisher=[[OpenAI]]|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf|archive-date=2021-01-26|access-date=2021-01-23|last1=Radford|first1=Alec|last2=Narasimhan|first2=Karthik|last3=Salimans|first3=Tim|last4=Sutskever|first4=Ilya}}</ref>. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали [[обучение с учителем]] на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей<ref name="tsvetkov">{{cite web|url=http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|title=Opportunities and Challenges in Working with Low-Resource Languages|first=Yulia|last=Tsvetkov|website=|date=2017-06-22|publisher=Carnegie Mellon University|archive-url=https://web.archive.org/web/20200331150440/http://www.cs.cmu.edu/~ytsvetko/jsalt-part1.pdf|archive-date=2020-03-31|access-date=2021-01-23|quote=}}</ref>. Кроме того, многие языки (такие как [[суахили]] или [[Гаитянский креольский язык|гаитянский креольский]]) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках<ref name="tsvetkov" />. Предложенный [[OpenAI]] подход {{Не переведено 3|Слабый надзор (машинное обучение)|слабонадзорного ("полу-надзорного")|en|Weak supervision}} обучения на основе [[Языковая модель|модели]] GPT включает два этапа:
    
# несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
 
# несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путем обучения модели языковым моделированием
Строка 29: Строка 29:  
|Общее
 
|Общее
 
|GPT-1, но с изменённой {{Не переведено 3|Пакетная нормализация|нормализацией|en|Batch normalization}}.
 
|GPT-1, но с изменённой {{Не переведено 3|Пакетная нормализация|нормализацией|en|Batch normalization}}.
|1.5 миллиардов ({{рост}}1273000 %)
+
|1,5 миллиарда ({{рост}}1 273 000 %)
|WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц за которые проголосовали на [[Reddit]].
+
|WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц, за которые проголосовали на [[Reddit]].
 
|14 февраля 2019
 
|14 февраля 2019
 
|-
 
|-
Строка 36: Строка 36:  
|Общее
 
|Общее
 
|GPT-2, но с изменениями для возможности масштабирования в большем объёме.
 
|GPT-2, но с изменениями для возможности масштабирования в большем объёме.
|175 миллиардов ({{рост}}11566 %)
+
|175 миллиардов ({{рост}}11 566 %)
 
|570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также [[BookCorpus]].
 
|570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных CommonCrawl, WebText, английской Википедии, а также [[BookCorpus]].
 
|11 июня 2020<ref>{{Cite web|language=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref>
 
|11 июня 2020<ref>{{Cite web|language=en-US|url=https://openai.com/research/language-models-are-few-shot-learners|title=Language models are few-shot learners|website=openai.com|archive-url=https://web.archive.org/web/20230321182325/https://openai.com/research/language-models-are-few-shot-learners|archive-date=2023-03-21|access-date=2023-03-21|url-status=live}}</ref>
Строка 49: Строка 49:  
|[[ChatGPT]]
 
|[[ChatGPT]]
 
|Диалог
 
|Диалог
|Использует [[InstructGPT|GPT-3.5]] и {{Не переведено 3|Тонкая настройка (нейросети)|тонко настроенн|en|Fine-tuning (machine learning)}} (подход к {{Не переведено 3|Трансферное обучение|трансферному обучению|en|Transfer learning}}) как с [[Обучение с учителем|обучением с учителем]], так и с [[Обучение с подкреплением на основе отзывов людей|RLHF]] (Обучение с подкреплением на основе отзывов людей).
+
|Использует [[InstructGPT|GPT-3.5]] и {{Не переведено 3|Тонкая настройка (нейросети)|тонко настроенн|en|Fine-tuning (machine learning)}} (подход к {{Не переведено 3|Трансферное обучение|трансферному обучению|en|Transfer learning}}) как с [[Обучение с учителем|обучением с учителем]], так и с [[Обучение с подкреплением на основе отзывов людей|RLHF]] (обучение с подкреплением на основе отзывов людей).
 
|{{dunno}}
 
|{{dunno}}
 
|{{dunno}}
 
|{{dunno}}
Анонимный участник