Skip to content

采样、量化与部署

llama.cpp 提供可组合的采样器链和多种量化方案,以及 OpenAI 兼容的 HTTP 服务器用于生产部署。

涵盖内容

章节核心主题
概念采样器链、量化类型、llama-server
代码走读llama-sampler.cpp、quantize、server
练习量化对比、API 调用、性能调优

核心概念

  • sampler-chain — 可组合的采样器管道
  • quantization — 将浮点权重压缩为低比特整数
  • imatrix — Importance Matrix,提升量化质量
  • llama-server — OpenAI 兼容的 HTTP API 服务器

前置知识

学习路径

读完本主题后,你将理解:

  • 采样器链的设计模式与各采样器的作用
  • 不同量化级别的精度/速度权衡
  • 如何使用 llama-server 部署 API 服务
  • 量化的数学原理与实践技巧

→ 恭喜完成全部学习模块!