Изменения

121 байт добавлено ,  1 месяц назад
Строка 6: Строка 6:  
Оригинальный алгоритм BPE работает путем итеративной замены наиболее распространённых смежных последовательностей символов в целевом тексте неиспользуемыми байтами-«заполнителями». Итерация заканчивается, когда не удается найти ни одной последовательности, в результате чего целевой текст остаётся фактически сжатым. [[Декомпрессия|Декомпрессию]] можно выполнить, обратив этот процесс, запросив известные термины-заполнители к соответствующей им последовательности, используя [[Таблица поиска|таблицу поиска]]. В исходной статье Филипп Гейджа эта таблица поиска кодируется и хранится вместе со сжатым текстом.
 
Оригинальный алгоритм BPE работает путем итеративной замены наиболее распространённых смежных последовательностей символов в целевом тексте неиспользуемыми байтами-«заполнителями». Итерация заканчивается, когда не удается найти ни одной последовательности, в результате чего целевой текст остаётся фактически сжатым. [[Декомпрессия|Декомпрессию]] можно выполнить, обратив этот процесс, запросив известные термины-заполнители к соответствующей им последовательности, используя [[Таблица поиска|таблицу поиска]]. В исходной статье Филипп Гейджа эта таблица поиска кодируется и хранится вместе со сжатым текстом.
    +
'''Пример:'''
 +
 +
Предположим, что нужно закодировать следующие данные:
 
== Примечания ==
 
== Примечания ==
 
[[Категория:Сжатие данных]]
 
[[Категория:Сжатие данных]]
 
[[Категория:Токенизаторы]]
 
[[Категория:Токенизаторы]]