Appearance
llama.cpp 学习笔记 — 知识地图
项目概览
llama.cpp 是一个纯 C/C++ 实现的 LLM 推理库,核心特性包括多后端硬件加速、丰富的量化方案和 OpenAI 兼容 API 服务器。
架构全景
学习路径
知识索引
核心架构
| 概念 | 主题 | 术语 |
|---|---|---|
| 张量定义 | GGML 张量库 | tensor |
| 计算图 | GGML 张量库 | compute-graph |
| 后端接口 | GGML 后端 | backend |
| 模型格式 | 模型加载 | gguf |
推理核心
| 概念 | 主题 | 术语 |
|---|---|---|
| 位置编码 | 推理图 | rope |
| 分词算法 | 分词 | tokenization |
| KV 缓存 | KV Cache | kv-cache |
| 批量解码 | KV Cache | batch-decode |
优化与部署
| 概念 | 主题 | 术语 |
|---|---|---|
| 量化方案 | 采样量化 | quantization |
| 采样器链 | 采样量化 | sampler-chain |
| 重要性矩阵 | 采样量化 | imatrix |
学习进度
- 01 项目概览与构建系统
- 02 GGML 张量库基础
- 03 GGML 后端与硬件抽象
- 04 模型加载与 GGUF 格式
- 05 分词与词表
- 06 Transformer 推理图
- 07 KV Cache 与批处理
- 08 采样、量化与部署