llama.cpp 学习笔记 — 知识地图

项目概览

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理库，核心特性包括多后端硬件加速、丰富的量化方案和 OpenAI 兼容 API 服务器。

架构全景

学习路径

知识索引

核心架构

概念	主题	术语
张量定义	GGML 张量库	tensor
计算图	GGML 张量库	compute-graph
后端接口	GGML 后端	backend
模型格式	模型加载	gguf
稀疏注意力	推理图	DSA (DeepSeek V3.2)

推理核心

概念	主题	术语
位置编码	推理图	rope
分词算法	分词	tokenization
KV 缓存	KV Cache	kv-cache
批量解码	KV Cache	batch-decode
MTP 图输入	推理图	llm_graph_input_mtp
TP 量化 KV	KV Cache	Tensor Parallel

优化与部署

概念	主题	术语
量化方案	采样量化	quantization
采样器链	采样量化	sampler-chain
重要性矩阵	采样量化	imatrix

学习进度

出链