Изменения

нет описания правки
Строка 1: Строка 1: −
'''Большая языковая модель''' (БЯМ; {{lang-en|large language model, LLM}}) — [[языковая модель]], состоящая из [[Нейронная сеть|нейронной сети]] со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием [[Обучение без учителя|обучения без учителя]]. LLM [[Бум искусственного интеллекта|стали популярны]] после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований [[Обработка естественного языка|обработки естественного языка]] с предыдущей парадигмы обучения специализированных [[Обучение с учителем|контролируемых]] моделей для конкретных задач<ref name=Manning-2022/>.
+
'''Большая языковая модель''' (БЯМ; {{lang-en|large language model, LLM}}) — [[языковая модель]], состоящая из [[искусственная нейронная сеть|нейронной сети]] со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием [[Обучение без учителя|обучения без учителя]]. LLM [[Бум искусственного интеллекта|стали популярны]] после 2017 года и хорошо справляются с широким спектром задач. Это сместило фокус исследований [[Обработка естественного языка|обработки естественного языка]] с предыдущей парадигмы обучения специализированных [[Обучение с учителем|контролируемых]] моделей для конкретных задач<ref name=Manning-2022/>.
    
Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объём обучающих данных. Параметры представляют собой переменные и [[Вес нейронной связи|веса]], используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель [[BERTbase]] компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объёма данных для обучения, достигающего нескольких петабайт и содержащего триллионы [[Токен (обучение нейронных сетей)|токенов]] — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью.
 
Термин «большой» в названии больших языковых моделей характеризует два ключевых аспекта: количество параметров и объём обучающих данных. Параметры представляют собой переменные и [[Вес нейронной связи|веса]], используемые моделью для формирования прогнозов при обработке языка. Размерность современных языковых моделей варьируется от десятков миллионов параметров (модель [[BERTbase]] компании Google) до триллиона параметров и более. Второй аспект термина «большой» касается беспрецедентного объёма данных для обучения, достигающего нескольких петабайт и содержащего триллионы [[Токен (обучение нейронных сетей)|токенов]] — базовых единиц текста или кода, обычно состоящих из нескольких символов, которые обрабатываются моделью.