Skip to content

模型加载与 GGUF 格式

GGUF 是 llama.cpp 使用的统一模型格式,将权重、词表和元数据打包在单一文件中。

涵盖内容

章节核心主题
概念GGUF 格式、模型架构、权重映射
代码走读llama-model-loader.cpp、llama-arch.h
练习解析 GGUF 文件、理解模型架构注册

核心概念

  • gguf — GGML Universal File,统一的模型容器格式
  • 模型架构 — 不同 LLM 架构(LLaMA, GPT-NeoX, Falcon 等)的统一加载
  • 权重映射 — 将 GGUF 中的张量名映射到模型计算图的对应位置

前置知识

学习路径

读完本主题后,你将理解:

  • GGUF 文件格式的二进制布局
  • 模型加载的完整流程(文件读取 → 张量分配 → 权重映射)
  • 如何添加对新模型架构的支持
  • 量化权重在加载时的处理方式

→ 下一步:分词与词表