Skip to content

KV Cache 与批处理

KV Cache 是 Transformer 推理的核心优化,避免重复计算已处理 token 的 K/V 向量。

涵盖内容

章节核心主题
概念KV Cache 原理、批处理、多序列管理
代码走读llama-memory.cpp, llama-batch.cpp
练习Cache 管理策略、批处理构建

核心概念

  • kv-cache — 缓存已计算的 Key/Value 向量
  • batch-decode — 批量并行解码多个 token
  • 序列管理 — 多对话并发时的 cache 分配与复用

前置知识

学习路径

读完本主题后,你将理解:

  • KV Cache 的内存布局与数据结构
  • Prompt processing (prefill) vs. token generation (decode) 的区别
  • 批处理如何实现多序列并行推理
  • Cache 淘汰策略(如 rolling cache)

→ 下一步:采样、量化与部署