Изменения

нет описания правки
Строка 1: Строка 1: −
{{Проще |дата=2025-02-23}}
  −
{{перенаправляет|LLM}}
   
'''Большая языковая модель''' (БЯМ; {{lang-en|large language model, LLM}}) — [[языковая модель]], состоящая из [[Нейронная сеть|нейронной сети]] со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием [[Обучение без учителя|обучения без учителя]]. LLM [[Бум искусственного интеллекта|стали популярны]] после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований [[Обработка естественного языка|обработки естественного языка]] с предыдущей парадигмы обучения специализированных [[Обучение с учителем|контролируемых]] моделей для конкретных задач<ref name=Manning-2022/>.
 
'''Большая языковая модель''' (БЯМ; {{lang-en|large language model, LLM}}) — [[языковая модель]], состоящая из [[Нейронная сеть|нейронной сети]] со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием [[Обучение без учителя|обучения без учителя]]. LLM [[Бум искусственного интеллекта|стали популярны]] после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований [[Обработка естественного языка|обработки естественного языка]] с предыдущей парадигмы обучения специализированных [[Обучение с учителем|контролируемых]] моделей для конкретных задач<ref name=Manning-2022/>.
   Строка 297: Строка 295:  
| Языковая модель в стиле GPT-3.
 
| Языковая модель в стиле GPT-3.
 
|-
 
|-
| Megatron-Turing NLG || Октябрь 2021<ref>{{cite web |last1=Alvi |first1=Ali |last2=Kharya |first2=Paresh |title=Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model |url=https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ |website=Microsoft Research |date=2021-10-11 |access-date=2023-03-16 |archive-date=2023-03-13 |archive-url=https://web.archive.org/web/20230313180531/https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ |url-status=live }}</ref> || [[Microsoft]] and [[Nvidia]] || 530 млрд<ref name="mtnlg-preprint" /> || 338,6 млрд токенов<ref name="mtnlg-preprint" /> || {{no|Restricted web access}}
+
| Megatron-Turing NLG || Октябрь 2021<ref>{{cite web |last1=Alvi |first1=Ali |last2=Kharya |first2=Paresh |title=Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model |url=https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ |website=Microsoft Research |date=2021-10-11 |access-date=2023-03-16 |archive-date=2023-03-13 |archive-url=https://web.archive.org/web/20230313180531/https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/ |url-status=live }}</ref>||[[Microsoft]] and [[Nvidia]] || 530 млрд<ref name="mtnlg-preprint" /> || 338,6 млрд токенов<ref name="mtnlg-preprint" /> || {{no|Restricted web access}}
 
| Стандартная архитектура, но обученная на суперкомпьютерном кластере.
 
| Стандартная архитектура, но обученная на суперкомпьютерном кластере.
 
|-
 
|-