Изменения

Byte Pair Encoding (править)

Версия от 15:34, 20 августа 2025

2850 байт добавлено , 1 месяц назад

Строка 31: Строка 31:

Эти данные невозможно сжать дальше с помощью кодирования пар байтов, поскольку нет пар байтов, которые встречаются более одного раза, в этот момент останавливается и процесс рекурсивного кодирования.

+

== Модифицированный алгоритм ==

+

Вариант алгоритма BPE модифицированный для использования в [[Большая языковая модель|больших языковых моделях]], не стремится к максимальному сжатию текста, а скорее к кодированию открытого текста в «токены», представляющие собой натуральные числа<ref>{{Cite arXiv|eprint=2410.19730|last1=Zhang|first1=Xiang|last2=Cao|first2=Juntai|last3=You|first3=Chenyu|title=Counting Ability of Large Language Models and Impact of Tokenization|date=2024|class=cs.CL}}</ref>. Все уникальные токены, найденные в корпусе, заносятся в словарь токенов, размер которого в случае [[GPT-3.5]] и [[GPT-4]] составляет 100256<ref>{{Cite web|last=Raschka|first=Sebastian|date=2025-01-17|title=Implementing A Byte Pair Encoding (BPE) Tokenizer From Scratch|url=https://sebastianraschka.com/blog/2025/bpe-from-scratch.html|access-date=2025-07-05|website=Sebastian Raschka, PhD|language=en}}</ref>. Модифицированный алгоритм токенизации изначально обрабатывает набор уникальных символов как [[N-грамма|n-граммы]] длиной в 1 символ (исходные токены). Затем последовательно наиболее частая пара смежных токенов объединяется в новую, более длинную n-грамму, и все вхождения пары заменяются этим новым токеном. Это повторяется до тех пор, пока не будет получен словарь заданного размера. При этом новые слова всегда можно построить из набора символов занесённых в словарь и символов исходного текста<ref name="2022Book_">{{cite book|last1=Paaß|first1=Gerhard|last2=Giesselbach|first2=Sven|chapter=Pre-trained Language Models|title=Foundation Models for Natural Language Processing|date=2022|pages=19–78|isbn=9783031231902|doi=10.1007/978-3-031-23190-2_2|series=Artificial Intelligence: Foundations, Theory, and Algorithms}}</ref>. В последние годы этот модифицированный подход BPE был распространен с устной речи на язык жестов<ref>{{Cite book|last=Pai|first=Suhas|title=Designing Large Language Model Applications: A Holistic Approach to LLMs|publisher=[[O'Reilly Media]]|date=2025-03-06|isbn=978-1-0981-5046-4|language=en}}</ref>.

== Примечания ==

[[Категория:Сжатие данных]]

[[Категория:Токенизаторы]]

In.wiki

autopatrolled, Бюрократы, Проверяющие участников, honadmin, honbureaucrat, importer, Администраторы интерфейса, interwiki, Редакторы модулей Lua, oversight, patroller, Администраторы (Semantic MediaWiki), Кураторы (Semantic MediaWiki), Editors (Semantic MediaWiki), steward, Скрывающие, Администраторы, редакторы кампании Мастера загрузок

1906

правок