Изменения

GGUF (править)

Версия от 23:27, 3 августа 2025

1897 байт добавлено , 1 месяц назад

Строка 23: Строка 23:

GGML в основном используется в примерах в [[GGML (библиотека машинного обучения)|ggml]], тогда как GGJT используется в моделях [[llama.cpp]].

−

Формат фокусируется на [[Квантование модели|квантовании]] — процессе снижения точности [[Весовые коэффициенты модели|весовых коэффициентов модели]]. Квантование модели может привести к уменьшению использования памяти и повышению скорости за счёт снижения точности модели.[29~~][28]~~

+

Формат фокусируется на [[Квантование модели|квантовании]] — процессе снижения точности [[Весовые коэффициенты модели|весовых коэффициентов модели]]. Квантование модели может привести к уменьшению использования памяти и повышению скорости за счёт снижения точности модели<ref name="towardsdatascience">{{cite web |last1=Labonne |first1=Maxime |title=Quantize Llama models with GGUF and llama.cpp |url=https://towardsdatascience.com/quantize-llama-models-with-ggml-and-llama-cpp-3612dfbcc172 |website=Medium |publisher=Towards Data Science |access-date=9 May 2024 |language=en |date=29 November 2023}}</ref><ref name="ibm-gguf-vs-ggml">{{cite web |last1=Mucci |first1=Tim |title=GGUF versus GGML |url=https://www.ibm.com/think/topics/gguf-versus-ggml |website=www.ibm.com |access-date=26 July 2024 |language=en-us |date=3 July 2024}}</ref>.

−

GGUF поддерживает [[квантованные целочисленные типы данных]] с разрядностью от 2 до 8 бит~~;[30]~~ распространённые [[Числа с плавающей запятой|форматы данных с плавающей точкой]], такие как [[float32]], [[float16]] и [[bfloat16]]; и квантование с разрядностью 1,56 бит.~~[5]~~

+

GGUF поддерживает [[квантованные целочисленные типы данных]] с разрядностью от 2 до 8 бит<ref name="Cabezas">{{cite book |last1=Cabezas |first1=Darío |last2=Fonseca-Delgado |first2=Rigoberto |last3=Reyes-Chacón |first3=Iván |last4=Vizcaino-Imacaña |first4=Paulina |last5=Morocho-Cayamcela |first5=Manuel |title=Proceedings of the 19th International Conference on Software Technologies |chapter=Integrating a LLaMa-based Chatbot with Augmented Retrieval Generation as a Complementary Educational Tool for High School and College Students |date=2024 |pages=395–402 |doi=10.5220/0012763000003753|isbn=978-989-758-706-1 }}</ref>, распространённые [[Числа с плавающей запятой|форматы данных с плавающей точкой]], такие как [[float32]], [[float16]] и [[bfloat16]]; и квантование с разрядностью 1,56 бит<ref name="theregister 14 Jul 2024">{{cite web |last1=Mann |first1=Tobias |title=Honey, I shrunk the LLM! A beginner's guide to quantization – and testing it |url=https://www.theregister.com/2024/07/14/quantization_llm_feature/ |website=theregister |date=14 Jul 2024}}</ref>.

−

Этот формат файла содержит информацию, необходимую для запуска [[Языковая модель|языковой модели]], подобной [[GPT]], такую как [[словарь токенизатора]], длина контекста, информация о тензоре и другие атрибуты.

+

Этот формат файла содержит информацию, необходимую для запуска [[Языковая модель|языковой модели]], подобной [[GPT]], такую как [[словарь токенизатора]], длина контекста, информация о тензоре и другие атрибуты<ref name="Accelerating GGUF Models with Transformers">{{cite magazine |last1=Dong |first1=Bo |last2=Lin |first2=Jun |last3=Yu |first3=Zhentao |last4=Xu |first4=Zhenzhong |last5=Luo |first5=Yu |last6=Chang |first6=Hanwen |last7=Shen |first7=Haihao |title=Accelerating GGUF Models with Transformers |journal=The Parallel Universe |date=July 2024 |issue=57 |pages=28–33 |url=https://www.intel.com/content/www/us/en/developer/articles/technical/accelerate-gguf-models-with-transformers.html |language=en |publisher=Intel}}</ref>

+

.

== Внутреннее устройство ==

In.wiki

autopatrolled, Бюрократы, Проверяющие участников, honadmin, honbureaucrat, importer, Администраторы интерфейса, interwiki, Редакторы модулей Lua, oversight, patroller, Администраторы (Semantic MediaWiki), Кураторы (Semantic MediaWiki), Editors (Semantic MediaWiki), steward, Скрывающие, Администраторы, редакторы кампании Мастера загрузок

1906

правок