Appearance
模型加载与 GGUF 格式
GGUF 是 llama.cpp 使用的统一模型格式,将权重、词表和元数据打包在单一文件中。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | GGUF 格式、模型架构、权重映射 |
| 代码走读 | llama-model-loader.cpp、llama-arch.h |
| 练习 | 解析 GGUF 文件、理解模型架构注册 |
核心概念
- gguf — GGML Universal File,统一的模型容器格式
- 模型架构 — 不同 LLM 架构(LLaMA, GPT-NeoX, Falcon 等)的统一加载
- 权重映射 — 将 GGUF 中的张量名映射到模型计算图的对应位置
前置知识
- GGML 张量库基础
- GGML 后端与硬件抽象
- 了解 Transformer 模型的基本结构
学习路径
读完本主题后,你将理解:
- GGUF 文件格式的二进制布局
- 模型加载的完整流程(文件读取 → 张量分配 → 权重映射)
- 如何添加对新模型架构的支持
- 量化权重在加载时的处理方式
→ 下一步:分词与词表