Токен (искусственный интеллект)

Токен — минимальная учитываемая при обучении систем генеративного искусственного интеллекта единица данных, получаемая при разбиении входного набора данных. В большинстве современных БЯМ, токен обязательно не соответствует токену в смысле лексического анализа, т.к. разбиение входного потока данных может производиться на базе чисто статистических методов на такие единицы как символьные диграммы и триграммы и им подобные без учёта морфологии слов и прочих лингвистических категорий.

Конкретный метод/программу токенизации называют токенизатором. Современные модульные технологии разработки систем искусственного интеллекта позволяют исследователям и разработчикам, экспериментируя, заменять одни модели токенизаторов на другие в рамках одного и того же конвейера разработки системы ИИ/NLP.

Аналогичная техника разбиения на токены используется при эмбединге - векторизации внешних по отношению к модели ИИ массивов данных для целей их последующего использования в рамках техники RAG.

Размер контекстного окна трансформеров, обобщённо определяющий мощность модели ИИ измеряется в токенах.

Также отработанные моделью токены используют как единицу учёта потребления мощности коммерческих ИИ-систем.