Изменения

57 байт убрано , 1 месяц назад

Строка 40: Строка 40:

== BPE на уровне байтов ==

−

В приведённом выше примере результатом работы BPE является словарь, который можно использовать для кодирования любого текста, состоящего из букв «abcd». Он не сможет кодировать текст, содержащий другие символы, например, «no». Даже если добавить каждую из 26 букв в словарь, поскольку в мире существует множество языков с различными письменностями, некоторые символы неизбежно будут некодируемы таким словарём. Одним из решений является замена любого некодируемого символа специальным символом UNK («неизвестно»). BPE на уровне байтов ~~— это другой подход. Он просто сначала преобразует текст~~ в [[UTF-8]] ~~и обрабатывает его~~ как ~~поток~~ [[Байт|байтов]]. Это гарантирует, что любой текст, закодированный в UTF-8, может быть закодирован BPE. Этот подход используется в моделях типа [[BERT]], таких как [[RoBERTa]], [[BART]] и [[DeBERTa]], а также в моделях типа [[GPT]], таких как [[GPT-2]]<ref>{{Cite web|title=Byte-Pair Encoding tokenization|url=https://huggingface.co/learn/nlp-course/en/chapter6/5|access-date=2025-01-27|website=Hugging Face NLP Course}}</ref><ref>{{Cite book|last1=Yıldırım|first1=Savaş|last2=Chenaghlu|first2=Meysam Asgari|title=Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques|publisher=[[Packt Publishing Ltd]]|date=2021-09-15|isbn=978-1-80107-889-4|language=en}}</ref><ref>{{Cite journal|last1=Wang|first1=Changhan|last2=Cho|first2=Kyunghyun|title=Neural Machine Translation with Byte-Level Subwords|journal=Proceedings of the AAAI Conference on Artificial Intelligence|date=2020-04-03|language=en|volume=34|issue=5|pages=[https://pdfguru.com/compress-pdf 9154–9160]|doi=10.1609/aaai.v34i05.6451|issn=2374-3468|doi-access=free|arxiv=1909.03341}}</ref>.

+

В приведённом выше примере результатом работы BPE является словарь, который можно использовать для кодирования любого текста, состоящего из букв «abcd». Он не сможет кодировать текст, содержащий другие символы, например, «no». Даже если добавить каждую из 26 букв в словарь, поскольку в мире существует множество языков с различными письменностями, некоторые символы неизбежно будут некодируемы таким словарём. Одним из решений является замена любого некодируемого символа специальным символом UNK («неизвестно»). BPE на уровне байтов решает данную проблему путём интерпретации в [[UTF-8]] как потока [[Байт|байтов]]. Это гарантирует, что любой текст, закодированный в UTF-8, может быть закодирован BPE. Этот подход используется в моделях типа [[BERT]], таких как [[RoBERTa]], [[BART]] и [[DeBERTa]], а также в моделях типа [[GPT]], таких как [[GPT-2]]<ref>{{Cite web|title=Byte-Pair Encoding tokenization|url=https://huggingface.co/learn/nlp-course/en/chapter6/5|access-date=2025-01-27|website=Hugging Face NLP Course}}</ref><ref>{{Cite book|last1=Yıldırım|first1=Savaş|last2=Chenaghlu|first2=Meysam Asgari|title=Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques|publisher=[[Packt Publishing Ltd]]|date=2021-09-15|isbn=978-1-80107-889-4|language=en}}</ref><ref>{{Cite journal|last1=Wang|first1=Changhan|last2=Cho|first2=Kyunghyun|title=Neural Machine Translation with Byte-Level Subwords|journal=Proceedings of the AAAI Conference on Artificial Intelligence|date=2020-04-03|language=en|volume=34|issue=5|pages=[https://pdfguru.com/compress-pdf 9154–9160]|doi=10.1609/aaai.v34i05.6451|issn=2374-3468|doi-access=free|arxiv=1909.03341}}</ref>.

== См. также ==

In.wiki

autopatrolled, Бюрократы, Проверяющие участников, honadmin, honbureaucrat, importer, Администраторы интерфейса, interwiki, Редакторы модулей Lua, oversight, patroller, Администраторы (Semantic MediaWiki), Кураторы (Semantic MediaWiki), Editors (Semantic MediaWiki), steward, Скрывающие, Администраторы, редакторы кампании Мастера загрузок

1906

правок

Изменения

Byte Pair Encoding (править)

Версия от 21:19, 20 августа 2025