Appearance
采样、量化与部署
llama.cpp 提供可组合的采样器链和多种量化方案,以及 OpenAI 兼容的 HTTP 服务器用于生产部署。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | 采样器链、量化类型、llama-server |
| 代码走读 | llama-sampler.cpp、quantize、server |
| 练习 | 量化对比、API 调用、性能调优 |
核心概念
- sampler-chain — 可组合的采样器管道
- quantization — 将浮点权重压缩为低比特整数
- imatrix — Importance Matrix,提升量化质量
- llama-server — OpenAI 兼容的 HTTP API 服务器
前置知识
- Transformer 推理图
- KV Cache 与批处理
- 了解 LLM 推理的 sampling 过程
学习路径
读完本主题后,你将理解:
- 采样器链的设计模式与各采样器的作用
- 不同量化级别的精度/速度权衡
- 如何使用 llama-server 部署 API 服务
- 量化的数学原理与实践技巧
→ 恭喜完成全部学习模块!