Строка 12: |
Строка 12: |
| В 2012 году нейронные сети стали доминировать в обработке изображений<ref>Chen L., Li S., Bai Q. et al. Review of Image Classification Algorithms Based on Convolutional Neural Networks // «Remote Sensing». — 2021. — Vol. 13. — № 22. — Article 4712. — P. 1—51. — DOI: 10.3390/rs13224712.</ref>, после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием [[sequence-to-sequence]] ([[seq2seq]]) глубоких [[LSTM-сеть|LSTM-сетей]], поскольку [[Трансформер|трансформеры]] на тот момент ещё не существовали. | | В 2012 году нейронные сети стали доминировать в обработке изображений<ref>Chen L., Li S., Bai Q. et al. Review of Image Classification Algorithms Based on Convolutional Neural Networks // «Remote Sensing». — 2021. — Vol. 13. — № 22. — Article 4712. — P. 1—51. — DOI: 10.3390/rs13224712.</ref>, после чего их начали применять и в моделировании языка. Google в 2016 году перевёл свою систему перевода на нейронный машинный перевод (Neural Machine Translation), который был реализован с использованием [[sequence-to-sequence]] ([[seq2seq]]) глубоких [[LSTM-сеть|LSTM-сетей]], поскольку [[Трансформер|трансформеры]] на тот момент ещё не существовали. |
| | | |
− | В 2017 году на [[Конференция NeurIPS|конференции NeurIPS]] исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на [[механизм внимания]], разработанный [[Бахданау]] и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT ([[encoder-only модель]], в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>. | + | В 2017 году на [[Конференция NeurIPS|конференции NeurIPS]] исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на [[механизм внимания]], разработанный [[Бахданау]] и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT ([[encoder-only модель]], в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей [[Decoder-only модели|decoder-only моделей]] (таких как GPT) решать задачи через [[промптинг]]<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>. |
| | | |
− | История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=<!--Not stated-->|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. | + | История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения [[OpenAI]] не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=<!--Not stated-->|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-4]] (2023) получила признание за повышенную точность и [[Мультимодальные нейронные сети|мультимодальные возможности]], хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование больших языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила [[Рассуждения нейронной сети|модель рассуждений]] [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. |
| | | |
| В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: [[Transformer-X]] (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), [[Copilot]] ([[GitHub]]), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и [[BERT 2]] (Google). Каждая модель внесла уникальный вклад в развитие [[Обработка естественного языка|обработки естественного языка]] ([[NLP]]), однако особое внимание исследователей привлекла техника обучения [[LoRA (машинное обучение)|LoRA]], которая стала центральным элементом в этой области. | | В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: [[Transformer-X]] (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), [[Copilot]] ([[GitHub]]), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и [[BERT 2]] (Google). Каждая модель внесла уникальный вклад в развитие [[Обработка естественного языка|обработки естественного языка]] ([[NLP]]), однако особое внимание исследователей привлекла техника обучения [[LoRA (машинное обучение)|LoRA]], которая стала центральным элементом в этой области. |