Строка 1: |
Строка 1: |
| '''Большая языковая модель''' (БЯМ; {{lang-en|large language model, LLM}}) — [[языковая модель]], состоящая из [[Нейронная сеть|нейронной сети]] со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием [[Обучение без учителя|обучения без учителя]]. LLM [[Бум искусственного интеллекта|стали популярны]] после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований [[Обработка естественного языка|обработки естественного языка]] с предыдущей парадигмы обучения специализированных [[Обучение с учителем|контролируемых]] моделей для конкретных задач<ref name=Manning-2022/>. | | '''Большая языковая модель''' (БЯМ; {{lang-en|large language model, LLM}}) — [[языковая модель]], состоящая из [[Нейронная сеть|нейронной сети]] со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием [[Обучение без учителя|обучения без учителя]]. LLM [[Бум искусственного интеллекта|стали популярны]] после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований [[Обработка естественного языка|обработки естественного языка]] с предыдущей парадигмы обучения специализированных [[Обучение с учителем|контролируемых]] моделей для конкретных задач<ref name=Manning-2022/>. |
| | | |
− | Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объём обучающих данных. Параметры представляют собой переменные и веса, используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель BERTbase компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объёма данных для обучения, достигающего нескольких петабайт и содержащего триллионы токенов — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью. | + | Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объём обучающих данных. Параметры представляют собой переменные и [[Вес нейронной связи|веса]], используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель [[BERTbase]] компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объёма данных для обучения, достигающего нескольких петабайт и содержащего триллионы [[Токен (обучение нейронных сетей)|токенов]] — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью. |
| | | |
| [[Generative pre-trained transformer|Генеративные предобученные трансформеры]] (GPT и аналоги) представляют собой наиболее мощные БЯМ, которые могут адаптироваться к конкретным задачам посредством дополнительного обучения или подсказок, обладают способностью прогнозировать синтаксические, семантические и онтологические структуры языка, одновременно наследуя неточности и предвзятости из обучающих данных. | | [[Generative pre-trained transformer|Генеративные предобученные трансформеры]] (GPT и аналоги) представляют собой наиболее мощные БЯМ, которые могут адаптироваться к конкретным задачам посредством дополнительного обучения или подсказок, обладают способностью прогнозировать синтаксические, семантические и онтологические структуры языка, одновременно наследуя неточности и предвзятости из обучающих данных. |
Строка 14: |
Строка 14: |
| В 2017 году на конференции NeurIPS исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на механизм внимания, разработанный Бахданау и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT (encoder-only модель, в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>. | | В 2017 году на конференции NeurIPS исследователи Google представили архитектуру трансформера в статье «Attention Is All You Need»<ref>Vaswani A., Shazeer N., Parmar N. et al. [https://web.archive.org/web/20240221141113/https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf Attention is All you Need] // «Advances in Neural Information Processing Systems». — 2017. — Vol. 30. — P. 1—11.</ref>, целью которой было усовершенствовать технологию seq2seq 2014 года, опираясь в основном на механизм внимания, разработанный Бахданау и соавторами в 2014 году<ref>{{cite arXiv |eprint=1409.0473 |class=cs.CL |first1=Dzmitry |last1=Bahdanau |first2=Kyunghyun |last2=Cho |title=Neural Machine Translation by Jointly Learning to Align and Translate |date=2014 |last3=Bengio |first3=Yoshua}}</ref>. В 2018 году была представлена модель BERT (encoder-only модель, в отличие от оригинального трансформера с блоками энкодера и декодера), которая быстро стала повсеместно использоваться<ref>{{Cite journal|last1=Rogers|first1=Anna|last2=Kovaleva|first2=Olga|last3=Rumshisky|first3=Anna|date=2020|title=A Primer in BERTology: What We Know About How BERT Works|url=https://aclanthology.org/2020.tacl-1.54|url-status=live|journal=Transactions of the Association for Computational Linguistics|volume=8|pages=842—866|arxiv=2002.12327|doi=10.1162/tacl_a_00349|s2cid=211532403|archive-url=https://web.archive.org/web/20220403103310/https://aclanthology.org/2020.tacl-1.54/|archive-date=2022-04-03|access-date=2024-01-21}}</ref>. Академическое и исследовательское применение BERT начало снижаться в 2023 году после стремительного улучшения возможностей decoder-only моделей (таких как GPT) решать задачи через промптинг<ref>Movva R., Balachandar S., Peng K. et al. [https://aclanthology.org/2024.naacl-long.67.pdf Topics, Authors, and Institutions in Large Language Model Research: Trends from 17K arXiv Papers] // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2024. — Vol. 1. — P. 1223—1243.</ref>. |
| | | |
− | История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя GPT-1 появилась в 2018 году, именно GPT-2 (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-3 (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя ChatGPT, вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=<!--Not stated-->|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя OpenAI не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений o1, способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. | + | История развития моделей GPT отражает стремительную эволюцию крупных языковых моделей. Хотя [[GPT-1]] появилась в 2018 году, именно [[GPT-2]] (2019) привлекла широкое внимание из-за первоначального решения OpenAI не выпускать её публично из-за потенциальных злоупотреблений<ref>{{cite web|url=https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|title=New AI fake text generator may be too dangerous to release, say creators|first=Alex|last=Hern|work=[[The Guardian]]|date=2019-02-14|archive-url=https://web.archive.org/web/20190214173112/https://www.theguardian.com/technology/2019/feb/14/elon-musk-backed-ai-writes-convincing-news-fiction|archive-date=2019-02-14|access-date=2024-01-20|url-status=live}}</ref>. [[GPT-3]] (2020) продолжила эту практику и до сих пор доступна только через API без возможности локального запуска. Настоящий прорыв в общественном сознании произошёл в 2022 году с выпуском ориентированного на потребителя [[ChatGPT]], вызвавшего значительный медийный резонанс<ref>{{cite web|url=https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|title=ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months|author=<!--Not stated-->|date=2023-11-30|publisher=[[Euronews]]|archive-url=https://web.archive.org/web/20240114025250/https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months|archive-date=2024-01-14|access-date=2024-01-20|url-status=live}}</ref>. GPT-4 (2023) получила признание за повышенную точность и мультимодальные возможности, хотя [[OpenAI]] не раскрыла её архитектуру и количество параметров<ref>{{cite web|url=https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|title=GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why|first=Will|last=Heaven|date=2023-03-14|publisher=MIT Technology Review|archive-url=https://web.archive.org/web/20230317224201/https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/|archive-date=2023-03-17|access-date=2024-01-20|url-status=live}}</ref>. Выпуск ChatGPT стимулировал использование крупных языковых моделей в различных областях компьютерных наук, включая робототехнику и разработку программного обеспечения. В 2024 году OpenAI представила модель рассуждений [[O1 (модель)|o1]], способную генерировать длинные цепочки мыслей перед выдачей окончательного ответа. |
| | | |
− | В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: Transformer-X (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), Copilot (GitHub), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и BERT 2 (Google). Каждая модель внесла уникальный вклад в развитие обработки естественного языка (NLP), однако особое внимание исследователей привлекла техника обучения LoRA, которая стала центральным элементом в этой области. | + | В 2021 году произошел значительный прорыв в развитии больших языковых моделей с появлением целого ряда новых разработок от ведущих технологических компаний. Среди них: [[Transformer-X]] (Google), GPT-Neo (EleutherAI), XLM-R (Facebook), LaMDA (Google), [[Copilot]] ([[GitHub]]), GPT-J (EleutherAI), Jurassic-1 (AI21), Megatron-Turing NLG, Codex (OpenAI), WebGPT (OpenAI) и [[BERT 2]] (Google). Каждая модель внесла уникальный вклад в развитие [[Обработка естественного языка|обработки естественного языка]] ([[NLP]]), однако особое внимание исследователей привлекла техника обучения [[LoRA (машинное обучение)|LoRA]], которая стала центральным элементом в этой области. |
| | | |
− | В период с 2022 года БЯМ с открытым исходным кодом стали приобретать популярность, начиная с BLOOM и LLaMA, хотя оба имели ограничения по сфере применения. Модели Mistral AI (Mistral 7B и Mixtral 8x7b) получили более либеральную лицензию Apache. В январе 2025 года компания DeepSeek выпустила DeepSeek R1 — модель с открытыми весами, содержащую 671 млрд параметров, которая по производительности сравнима с OpenAI o1, но работает с гораздо меньшими затратами<ref>{{Cite web|url=https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/|title=Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost|language=en-US|first=Shubham|last=Sharma|website=VentureBeat|date=2025-01-20|access-date=2025-01-26}}</ref>. | + | В период с 2022 года БЯМ с открытым исходным кодом стали приобретать популярность, начиная с [[BLOOM]] и [[LLaMA]], хотя оба имели ограничения по сфере применения. Модели Mistral AI (Mistral 7B и Mixtral 8x7b) получили более либеральную лицензию [[Apache (лицензия)|Apache]]. В январе 2025 года компания [[DeepSeek]] выпустила [[DeepSeek R1]] — модель с открытыми весами, содержащую 671 млрд параметров, которая по производительности сравнима с OpenAI o1, но работает с гораздо меньшими затратами<ref>{{Cite web|url=https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/|title=Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost|language=en-US|first=Shubham|last=Sharma|website=VentureBeat|date=2025-01-20|access-date=2025-01-26}}</ref>. |
| | | |
− | В марте 2022 года представлен новый метод квантования GPTQ, способный сжимать модели с сотнями миллиардов параметров до 3—4 бит на параметр без существенной потери точности, позволяя проводить инференс БЯМ с существенным сокращением необходимой видеопамяти<ref>{{Статья|ссылка=https://arxiv.org/pdf/2210.17323|заглавие=GPTQ: Accurate post-training quantization for generative pre-trained transformers|издание=}}</ref>, что сделало широко доступным запуск БЯМ на потребительских графических ускорителях. | + | В марте 2022 года представлен новый метод квантования [[GPTQ]], способный [[Сжатие моделей|сжимать модели]] с сотнями миллиардов параметров до 3—4 бит на параметр без существенной потери точности, позволяя проводить [[инференс]] БЯМ с существенным сокращением необходимой видеопамяти<ref>{{Статья|ссылка=https://arxiv.org/pdf/2210.17323|заглавие=GPTQ: Accurate post-training quantization for generative pre-trained transformers|издание=}}</ref>, что сделало широко доступным запуск БЯМ на потребительских графических ускорителях. |
| | | |
− | 23 мая 2023 года была представлена технология QLoRA (Quantized Low-Rank Adaptation), обеспечивающая ускоренный fine-tuning квантизированных моделей без потери качества и с меньшим объёмом видеопамяти<ref>{{Статья|ссылка=https://arxiv.org/abs/2305.14314|автор=Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer|заглавие=QLoRA: Efficient Finetuning of Quantized LLMs|год=2023-05-23|doi=10.48550/arXiv.2305.14314}}</ref>. | + | 23 мая 2023 года была представлена технология [[QLoRA]] (Quantized Low-Rank Adaptation), обеспечивающая ускоренный fine-tuning квантизированных моделей без потери качества и с меньшим объёмом видеопамяти<ref>{{Статья|ссылка=https://arxiv.org/abs/2305.14314|автор=Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer|заглавие=QLoRA: Efficient Finetuning of Quantized LLMs|год=2023-05-23|doi=10.48550/arXiv.2305.14314}}</ref>. |
| | | |
− | В марте 2023 года представлена библиотека llama.cpp для запуска больших языковых моделей без зависимостей, первоначально оптимизированное для работы на CPU. Проект включает командную строку, веб-интерфейс и поддерживает различные аппаратные платформы (x86, ARM, CUDA, Metal), использует собственный формат файлов GGUF (введен в августе 2023 года) для хранения тензоров и метаданных, поддерживает различные методы квантизации для снижения потребления памяти. | + | В марте 2023 года представлена библиотека [[llama.cpp]] для запуска больших языковых моделей без зависимостей, первоначально оптимизированное для работы на [[CPU]]. Проект включает командную строку, веб-интерфейс и поддерживает различные аппаратные платформы ([[x86]], [[ARM]], [[CUDA]], [[Metal]]), использует собственный формат файлов [[GGUF]] (введен в августе 2023 года) для хранения тензоров и метаданных, поддерживает различные методы квантизации для снижения потребления памяти. |
| | | |
| Распространение MoE моделей начинается с декабря 2023 года, компания Mistral AI выпустила Mixtral 8x7B — высококачественную разреженную БЯМ типа mixture of experts (SMoE) с открытыми весами, лицензированную по Apache License 2.0, которая превосходила Llama 2 70B на большинстве тестов за счёт шестикратного ускорения вывода<ref name="автоссылка2">{{Cite web|url=https://www.tensorops.ai/post/what-is-mixture-of-experts-llm|title=LLM Mixture of Experts Explained|lang=en|first=Miguel Carreira|last=Neves|website=TensorOps|date=2024-01-29|access-date=2025-03-27}}</ref>. | | Распространение MoE моделей начинается с декабря 2023 года, компания Mistral AI выпустила Mixtral 8x7B — высококачественную разреженную БЯМ типа mixture of experts (SMoE) с открытыми весами, лицензированную по Apache License 2.0, которая превосходила Llama 2 70B на большинстве тестов за счёт шестикратного ускорения вывода<ref name="автоссылка2">{{Cite web|url=https://www.tensorops.ai/post/what-is-mixture-of-experts-llm|title=LLM Mixture of Experts Explained|lang=en|first=Miguel Carreira|last=Neves|website=TensorOps|date=2024-01-29|access-date=2025-03-27}}</ref>. |