Skip to content

llama.cpp 学习笔记 — 知识地图

项目概览

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理库,核心特性包括多后端硬件加速、丰富的量化方案和 OpenAI 兼容 API 服务器。

架构全景

学习路径

知识索引

核心架构

概念主题术语
张量定义GGML 张量库tensor
计算图GGML 张量库compute-graph
后端接口GGML 后端backend
模型格式模型加载gguf

推理核心

概念主题术语
位置编码推理图rope
分词算法分词tokenization
KV 缓存KV Cachekv-cache
批量解码KV Cachebatch-decode

优化与部署

概念主题术语
量化方案采样量化quantization
采样器链采样量化sampler-chain
重要性矩阵采样量化imatrix

学习进度

  • 01 项目概览与构建系统
  • 02 GGML 张量库基础
  • 03 GGML 后端与硬件抽象
  • 04 模型加载与 GGUF 格式
  • 05 分词与词表
  • 06 Transformer 推理图
  • 07 KV Cache 与批处理
  • 08 采样、量化与部署