Изменения

Llama.cpp (править)

Версия от 16:24, 30 июля 2025

1196 байт добавлено , 1 месяц назад

Строка 34: Строка 34:

== Архитектура ==

−

llama.cpp поддерживает несколько целевых аппаратных платформ, включая x86, ARM, [[CUDA]], [[Metal]], [[Vulkan]] (версии 1.2 или выше) и [[SYCL]]<ref name="Gerganov Slaren Nguyen Introduction to ggml">{{cite web |last1=Gerganov |first1=Georgi |last2=Nguyen |first2=Xuan Son |author3=Slaren |title=Introduction to ggml |url=https://huggingface.co/blog/introduction-to-ggml |website=Huggingface |date=August 13, 2024}}</ref><ref name="Kluska">{{cite journal |last1=Kluska |first1=Piotr |last2=Castell´o |first2=Adri´an |last3=Scheidegger |first3=Florian |last4=I. Malossi |first4=A. Cristiano |last5=Quintana-Ort´ı |first5=Enrique |title=QAttn: Efficient GPU Kernels for mixed-precision Vision Transformers |journal=Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops |date=June 2024 |url=https://openaccess.thecvf.com/content/CVPR2024W/ELVM/papers/Kluska_QAttn_Efficient_GPU_Kernels_for_Mixed-precision_Vision_Transformers_CVPRW_2024_paper.pdf}}</ref><ref name="Run LLMs on Intel GPUs Using llama.cpp">{{cite magazine |last1=Jianyu |first1=Zhang |last2=Hengyu |first2=Meng |last3=Ying |first3=Hu |last4=Yu |first4=Luo |last5=Xiaoping |first5=Duan |last6=Corporation |first6=Majumder Abhilash Intel |title=Run LLMs on Intel GPUs Using llama.cpp|journal=The Parallel Universe |date=July 2024 |issue=57 |pages=34–37 |url=https://www.intel.com/content/www/us/en/developer/articles/technical/run-llms-on-gpus-using-llama-cpp.html |publisher=Intel |language=en}}</ref><ref name="Bolz">{{cite web |last1=Bolz |first1=Jeff |title=Machine Learning in Vulkan with Cooperative Matrix 2 |url=https://vulkan.org/user/pages/09.events/vulkanised-2025/T47-Jeff-Bolz-NVIDIA.pdf |publisher=The Khronos Group/Nvidia |location=Cambridge, UK |language=en |date=February 11–13, 2025}}</ref>. Эта поддержка реализована в тензорной библиотеке [[GGML (библиотека машинного обучения)|GGML]], которая используется кодом llama.cpp, специфичным для модели фронтенда.~~[21]~~ llama.cpp поддерживает предварительное квантование модели, а не квантование «на лету».~~[22]~~ llama.cpp использует несколько [[Расширения набора команд x86|расширений набора команд x86]] для ускорения выполнения матричных операций: [[AVX]], [[AVX2]] и [[AVX-512]] для [[x86-64]], а также [[Neon]] на ARM. [[Apple Silicon]] также является важной целевой платформой для проекта<ref name="llama.cpprepo" />.~~[23]~~

+

llama.cpp поддерживает несколько целевых аппаратных платформ, включая x86, ARM, [[CUDA]], [[Metal]], [[Vulkan]] (версии 1.2 или выше) и [[SYCL]]<ref name="Gerganov Slaren Nguyen Introduction to ggml">{{cite web |last1=Gerganov |first1=Georgi |last2=Nguyen |first2=Xuan Son |author3=Slaren |title=Introduction to ggml |url=https://huggingface.co/blog/introduction-to-ggml |website=Huggingface |date=August 13, 2024}}</ref><ref name="Kluska">{{cite journal |last1=Kluska |first1=Piotr |last2=Castell´o |first2=Adri´an |last3=Scheidegger |first3=Florian |last4=I. Malossi |first4=A. Cristiano |last5=Quintana-Ort´ı |first5=Enrique |title=QAttn: Efficient GPU Kernels for mixed-precision Vision Transformers |journal=Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops |date=June 2024 |url=https://openaccess.thecvf.com/content/CVPR2024W/ELVM/papers/Kluska_QAttn_Efficient_GPU_Kernels_for_Mixed-precision_Vision_Transformers_CVPRW_2024_paper.pdf}}</ref><ref name="Run LLMs on Intel GPUs Using llama.cpp">{{cite magazine |last1=Jianyu |first1=Zhang |last2=Hengyu |first2=Meng |last3=Ying |first3=Hu |last4=Yu |first4=Luo |last5=Xiaoping |first5=Duan |last6=Corporation |first6=Majumder Abhilash Intel |title=Run LLMs on Intel GPUs Using llama.cpp|journal=The Parallel Universe |date=July 2024 |issue=57 |pages=34–37 |url=https://www.intel.com/content/www/us/en/developer/articles/technical/run-llms-on-gpus-using-llama-cpp.html |publisher=Intel |language=en}}</ref><ref name="Bolz">{{cite web |last1=Bolz |first1=Jeff |title=Machine Learning in Vulkan with Cooperative Matrix 2 |url=https://vulkan.org/user/pages/09.events/vulkanised-2025/T47-Jeff-Bolz-NVIDIA.pdf |publisher=The Khronos Group/Nvidia |location=Cambridge, UK |language=en |date=February 11–13, 2025}}</ref>. Эта поддержка реализована в тензорной библиотеке [[GGML (библиотека машинного обучения)|GGML]], которая используется кодом llama.cpp, специфичным для модели фронтенда<ref name="tomshardware">{{cite web |last1=Pounder |first1=Les |title=How To Create Your Own AI Chatbot Server With Raspberry Pi 4 |url=https://www.tomshardware.com/how-to/create-ai-chatbot-server-on-raspberry-pi |website=tomshardware.com |date=25 March 2023 |access-date=16 April 2024}}</ref>. llama.cpp поддерживает предварительное квантование модели, а не квантование «на лету»<ref name="Walkowiak">{{cite journal |last1=Walkowiak |first1=Bartosz |last2=Walkowiak |first2=Tomasz |journal=International Journal of Electronics and Telecommunications|date=2024 |volume=70 |issue=1 |pages=153–159 |doi=10.24425/ijet.2024.149525 |url=https://journals.pan.pl/Content/130704/18_4466_Walkowiak_L_sk.pdf |access-date=8 May 2024| title=Implementation of language models within an infrastructure designed for Natural Language Processing}}</ref>. llama.cpp использует несколько [[Расширения набора команд x86|расширений набора команд x86]] для ускорения выполнения матричных операций: [[AVX]], [[AVX2]] и [[AVX-512]] для [[x86-64]], а также [[Neon]] на ARM. [[Apple Silicon]] также является важной целевой платформой для проекта<ref name="llama.cpprepo" /><ref name="Walkowiak">{{cite journal |last1=Walkowiak |first1=Bartosz |last2=Walkowiak |first2=Tomasz |journal=International Journal of Electronics and Telecommunications|date=2024 |volume=70 |issue=1 |pages=153–159 |doi=10.24425/ijet.2024.149525 |url=https://journals.pan.pl/Content/130704/18_4466_Walkowiak_L_sk.pdf |access-date=8 May 2024| title=Implementation of language models within an infrastructure designed for Natural Language Processing}}</ref>.

llama.cpp поддерживает форматирование выходных данных на основе грамматики в формате JSON<ref name="Wiest" /> и [[Спекулятивное декодирование модели|спекулятивное декодирование]]<ref name="theregister 15 December 2024" />.

In.wiki

autopatrolled, Бюрократы, Проверяющие участников, honadmin, honbureaucrat, importer, Администраторы интерфейса, interwiki, Редакторы модулей Lua, oversight, patroller, Администраторы (Semantic MediaWiki), Кураторы (Semantic MediaWiki), Editors (Semantic MediaWiki), steward, Скрывающие, Администраторы, редакторы кампании Мастера загрузок

1906

правок