Appearance
KV Cache 与批处理
KV Cache 是 Transformer 推理的核心优化,避免重复计算已处理 token 的 K/V 向量。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | KV Cache 原理、批处理、多序列管理 |
| 代码走读 | llama-memory.cpp, llama-batch.cpp |
| 练习 | Cache 管理策略、批处理构建 |
核心概念
- kv-cache — 缓存已计算的 Key/Value 向量
- batch-decode — 批量并行解码多个 token
- 序列管理 — 多对话并发时的 cache 分配与复用
前置知识
- Transformer 推理图
- 了解自回归生成的原理
- 内存管理基础
学习路径
读完本主题后,你将理解:
- KV Cache 的内存布局与数据结构
- Prompt processing (prefill) vs. token generation (decode) 的区别
- 批处理如何实现多序列并行推理
- Cache 淘汰策略(如 rolling cache)
→ 下一步:采样、量化与部署