Изменения

2850 байт добавлено ,  1 месяц назад
Строка 31: Строка 31:     
Эти данные невозможно сжать дальше с помощью кодирования пар байтов, поскольку нет пар байтов, которые встречаются более одного раза, в этот момент останавливается и процесс рекурсивного кодирования.
 
Эти данные невозможно сжать дальше с помощью кодирования пар байтов, поскольку нет пар байтов, которые встречаются более одного раза, в этот момент останавливается и процесс рекурсивного кодирования.
 +
 +
== Модифицированный алгоритм ==
 +
Вариант алгоритма BPE модифицированный для использования в [[Большая языковая модель|больших языковых моделях]], не стремится к максимальному сжатию текста, а скорее к кодированию открытого текста в «токены», представляющие собой натуральные числа<ref>{{Cite arXiv|eprint=2410.19730|last1=Zhang|first1=Xiang|last2=Cao|first2=Juntai|last3=You|first3=Chenyu|title=Counting Ability of Large Language Models and Impact of Tokenization|date=2024|class=cs.CL}}</ref>. Все уникальные токены, найденные в корпусе, заносятся в словарь токенов, размер которого в случае [[GPT-3.5]] и [[GPT-4]] составляет 100256<ref>{{Cite web|last=Raschka|first=Sebastian|date=2025-01-17|title=Implementing A Byte Pair Encoding (BPE) Tokenizer From Scratch|url=https://sebastianraschka.com/blog/2025/bpe-from-scratch.html|access-date=2025-07-05|website=Sebastian Raschka, PhD|language=en}}</ref>. Модифицированный алгоритм токенизации изначально обрабатывает набор уникальных символов как [[N-грамма|n-граммы]] длиной в 1 символ (исходные токены). Затем последовательно наиболее частая пара смежных токенов объединяется в новую, более длинную n-грамму, и все вхождения пары заменяются этим новым токеном. Это повторяется до тех пор, пока не будет получен словарь заданного размера. При этом новые слова всегда можно построить из набора символов занесённых в словарь и символов исходного текста<ref name="2022Book_">{{cite book|last1=Paaß|first1=Gerhard|last2=Giesselbach|first2=Sven|chapter=Pre-trained Language Models|title=Foundation Models for Natural Language Processing|date=2022|pages=19–78|isbn=9783031231902|doi=10.1007/978-3-031-23190-2_2|series=Artificial Intelligence: Foundations, Theory, and Algorithms}}</ref>. В последние годы этот модифицированный подход BPE был распространен с устной речи на язык жестов<ref>{{Cite book|last=Pai|first=Suhas|title=Designing Large Language Model Applications: A Holistic Approach to LLMs|publisher=[[O'Reilly Media]]|date=2025-03-06|isbn=978-1-0981-5046-4|language=en}}</ref>.
    
== Примечания ==
 
== Примечания ==
 
[[Категория:Сжатие данных]]
 
[[Категория:Сжатие данных]]
 
[[Категория:Токенизаторы]]
 
[[Категория:Токенизаторы]]