采样、量化与部署

llama.cpp 提供可组合的采样器链和多种量化方案，以及 OpenAI 兼容的 HTTP 服务器用于生产部署。

涵盖内容

章节	核心主题
概念	采样器链、量化类型、llama-server
代码走读	llama-sampler.cpp、quantize、server
练习	量化对比、API 调用、性能调优

核心概念

sampler-chain — 可组合的采样器管道
quantization — 将浮点权重压缩为低比特整数
imatrix — Importance Matrix，提升量化质量
llama-server — OpenAI 兼容的 HTTP API 服务器

前置知识

Transformer 推理图
KV Cache 与批处理
了解 LLM 推理的 sampling 过程

学习路径

读完本主题后，你将理解：

采样器链的设计模式与各采样器的作用
不同量化级别的精度/速度权衡
如何使用 llama-server 部署 API 服务
量化的数学原理与实践技巧

→ 恭喜完成全部学习模块！