KV Cache 与批处理

KV Cache 是 Transformer 推理的核心优化，避免重复计算已处理 token 的 K/V 向量。

涵盖内容

章节	核心主题
概念	KV Cache 原理、批处理、多序列管理
代码走读	llama-memory.cpp, llama-batch.cpp
练习	Cache 管理策略、批处理构建

核心概念

kv-cache — 缓存已计算的 Key/Value 向量
batch-decode — 批量并行解码多个 token
序列管理 — 多对话并发时的 cache 分配与复用

前置知识

Transformer 推理图
了解自回归生成的原理
内存管理基础

学习路径

读完本主题后，你将理解：

KV Cache 的内存布局与数据结构
Prompt processing (prefill) vs. token generation (decode) 的区别
批处理如何实现多序列并行推理
Cache 淘汰策略（如 rolling cache）

→ 下一步：采样、量化与部署