Строка 23: |
Строка 23: |
| GGML в основном используется в примерах в [[GGML (библиотека машинного обучения)|ggml]], тогда как GGJT используется в моделях [[llama.cpp]]. | | GGML в основном используется в примерах в [[GGML (библиотека машинного обучения)|ggml]], тогда как GGJT используется в моделях [[llama.cpp]]. |
| | | |
− | Формат фокусируется на [[Квантование модели|квантовании]] — процессе снижения точности [[Весовые коэффициенты модели|весовых коэффициентов модели]]. Квантование модели может привести к уменьшению использования памяти и повышению скорости за счёт снижения точности модели.[29][28] | + | Формат фокусируется на [[Квантование модели|квантовании]] — процессе снижения точности [[Весовые коэффициенты модели|весовых коэффициентов модели]]. Квантование модели может привести к уменьшению использования памяти и повышению скорости за счёт снижения точности модели<ref name="towardsdatascience">{{cite web |last1=Labonne |first1=Maxime |title=Quantize Llama models with GGUF and llama.cpp |url=https://towardsdatascience.com/quantize-llama-models-with-ggml-and-llama-cpp-3612dfbcc172 |website=Medium |publisher=Towards Data Science |access-date=9 May 2024 |language=en |date=29 November 2023}}</ref><ref name="ibm-gguf-vs-ggml">{{cite web |last1=Mucci |first1=Tim |title=GGUF versus GGML |url=https://www.ibm.com/think/topics/gguf-versus-ggml |website=www.ibm.com |access-date=26 July 2024 |language=en-us |date=3 July 2024}}</ref>. |
| | | |
− | GGUF поддерживает [[квантованные целочисленные типы данных]] с разрядностью от 2 до 8 бит;[30] распространённые [[Числа с плавающей запятой|форматы данных с плавающей точкой]], такие как [[float32]], [[float16]] и [[bfloat16]]; и квантование с разрядностью 1,56 бит.[5] | + | GGUF поддерживает [[квантованные целочисленные типы данных]] с разрядностью от 2 до 8 бит<ref name="Cabezas">{{cite book |last1=Cabezas |first1=Darío |last2=Fonseca-Delgado |first2=Rigoberto |last3=Reyes-Chacón |first3=Iván |last4=Vizcaino-Imacaña |first4=Paulina |last5=Morocho-Cayamcela |first5=Manuel |title=Proceedings of the 19th International Conference on Software Technologies |chapter=Integrating a LLaMa-based Chatbot with Augmented Retrieval Generation as a Complementary Educational Tool for High School and College Students |date=2024 |pages=395–402 |doi=10.5220/0012763000003753|isbn=978-989-758-706-1 }}</ref>, распространённые [[Числа с плавающей запятой|форматы данных с плавающей точкой]], такие как [[float32]], [[float16]] и [[bfloat16]]; и квантование с разрядностью 1,56 бит<ref name="theregister 14 Jul 2024">{{cite web |last1=Mann |first1=Tobias |title=Honey, I shrunk the LLM! A beginner's guide to quantization – and testing it |url=https://www.theregister.com/2024/07/14/quantization_llm_feature/ |website=theregister |date=14 Jul 2024}}</ref>. |
| | | |
− | Этот формат файла содержит информацию, необходимую для запуска [[Языковая модель|языковой модели]], подобной [[GPT]], такую как [[словарь токенизатора]], длина контекста, информация о тензоре и другие атрибуты. | + | Этот формат файла содержит информацию, необходимую для запуска [[Языковая модель|языковой модели]], подобной [[GPT]], такую как [[словарь токенизатора]], длина контекста, информация о тензоре и другие атрибуты<ref name="Accelerating GGUF Models with Transformers">{{cite magazine |last1=Dong |first1=Bo |last2=Lin |first2=Jun |last3=Yu |first3=Zhentao |last4=Xu |first4=Zhenzhong |last5=Luo |first5=Yu |last6=Chang |first6=Hanwen |last7=Shen |first7=Haihao |title=Accelerating GGUF Models with Transformers |journal=The Parallel Universe |date=July 2024 |issue=57 |pages=28–33 |url=https://www.intel.com/content/www/us/en/developer/articles/technical/accelerate-gguf-models-with-transformers.html |language=en |publisher=Intel}}</ref> |
| + | . |
| | | |
| == Внутреннее устройство == | | == Внутреннее устройство == |