Изменения

160 байт добавлено , 2 месяца назад

Строка 12: Строка 12:

В 2012 году нейронные сети стали доминировать в обработке изображений<ref>Chen L., Li S., Bai Q. et al. Review of Image Classification Algorithms Based on Convolutional Neural Networks // «Remote Sensing». — 2021. — Vol. 13. — № 22. — Article 4712. — P. 1—51. — DOI: 10.3390/rs13224712.</ref>, после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием [[sequence-to-sequence]] ([[seq2seq]]) глубоких [[LSTM-сеть|LSTM-сетей]], поскольку [[Трансформер|трансформеры]] на тот момент ещё не существовали.

−

В 2017 году на [[Конференция NeurIPS|конференции NeurIPS]] исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на [[механизм внимания]], разработанный [[Бахданау]] и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT ([[encoder-only модель]], в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>.

+

В 2017 году на [[Конференция NeurIPS|конференции NeurIPS]] исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на [[механизм внимания]], разработанный [[Бахданау]] и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT ([[encoder-only модель]], в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей [[Decoder-only модели|decoder-only моделей]] (таких как GPT) решать задачи через [[промптинг]]<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>.

−

История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование ~~крупных~~ языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа.

+

История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения [[OpenAI]] не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-4]] (2023) получила признание за повышенную точность и [[Мультимодальные нейронные сети|мультимодальные возможности]], хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование больших языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила [[Рассуждения нейронной сети|модель рассуждений]] [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа.

В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: [[Transformer-X]] (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), [[Copilot]] ([[GitHub]]), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и [[BERT 2]] (Google). Каждая модель внесла уникальный вклад в развитие [[Обработка естественного языка|обработки естественного языка]] ([[NLP]]), однако особое внимание исследователей привлекла техника обучения [[LoRA (машинное обучение)|LoRA]], которая стала центральным элементом в этой области.

In.wiki

autopatrolled, Бюрократы, Проверяющие участников, honadmin, honbureaucrat, importer, Администраторы интерфейса, interwiki, Редакторы модулей Lua, oversight, patroller, Администраторы (Semantic MediaWiki), Кураторы (Semantic MediaWiki), Editors (Semantic MediaWiki), steward, Скрывающие, Администраторы, редакторы кампании Мастера загрузок

1906

правок

Изменения

Большая языковая модель (править)

Версия от 17:39, 27 июля 2025