llama.cpp 学习笔记

llamacppllama.cpp 学习笔记

llama.cpp 学习笔记

🧮

GGML 张量计算库

底层张量运算与计算图，支持自动微分与多种数据类型

⚡

多后端硬件加速

CPU (SIMD)、CUDA、Metal、Vulkan 等多种硬件后端统一抽象

📦

GGUF 模型格式

统一的模型权重与元数据容器，支持 mmap 高效加载

🔢

丰富量化方案

从 1.5-bit 到 8-bit 的量化支持，平衡精度与性能

🎲

可组合采样器链

top-k/top-p/mirostat/grammar 等采样器灵活组合

🌐

OpenAI 兼容服务器

llama-server 提供 HTTP API，兼容 OpenAI 接口格式