模型加载与 GGUF 格式 — 练习

练习 1：用 Python 查看 GGUF 元数据

使用 gguf-py 库读取一个 GGUF 模型文件，列出所有元数据和张量名称。

参考答案

bash

pip install gguf
python -c "
from gguf import GGUFReader
reader = GGUFReader('model.gguf')
# 打印元数据
for key, val in reader.fields.items():
    print(f'{key}: {val}')
# 打印张量
for tensor in reader.tensors:
    print(f'{tensor.name}: type={tensor.tensor_type}, shape={tensor.shape}')
"

练习 2：追踪模型加载流程

在 llama-model-loader.cpp 中，从 llama_model_load_from_file 开始，梳理完整的加载调用链。

参考答案

调用链：

llama_model_load_from_file(path, params)
→ llama_model::load(model_loader, params)
→ llm_load_hparams(loader) — 解析架构和超参数
→ llm_load_vocab(loader) — 加载词表
→ llm_load_tensors(loader, progress_cb) — 加载权重
→ 对每个张量：检查类型、创建 ggml_tensor、设置 mmap 映射
→ 根据架构创建 llm_layer 结构并关联张量

练习 3：添加新架构支持

阅读 docs/development/HOWTO-add-model.md，理解添加新模型架构需要的步骤。

参考答案

添加新架构的步骤（摘自 HOWTO）：

在 llama-arch.h 的 llm_arch 枚举中添加新架构
在 llama-arch.cpp 中注册架构的层定义和张量映射
在 llm_load_hparams 中添加超参数解析
在 llama-model.cpp 中实现 llm_build_* 函数（forward pass）
在 llama-model.cpp 的 switch 中添加架构分发
编写转换脚本将 HuggingFace 权重转为 GGUF
添加测试用例

练习 4：使用 gguf_init_from_buffer 加载 GGUF

阅读 ggml/src/gguf.cpp 中 gguf_init_from_buffer 的实现，理解它如何从内存中的二进制数据解析 GGUF 结构。思考：在什么场景下使用 buffer/callback 初始化比文件初始化更合适？

参考答案

适用场景：

从网络流加载模型（边下载边解析）
从加密存储中读取模型（先解密到 buffer，再解析）
嵌入式场景（模型已打包在二进制中）
测试场景（直接构造 GGUF 二进制数据）

gguf_init_from_buffer 接收 void * data 和 size_t size，内部创建一个基于内存的 reader，跳过文件 I/O 直接解析 header、metadata 和 tensor info。

拓展挑战

使用 gguf-py 手动构建一个最小的 GGUF 文件
对比同一模型在 F16 和 Q4_0 下的 GGUF 文件大小
阅读 convert_hf_to_gguf.py 理解权重转换过程

模型加载与 GGUF 格式 — 练习 ​

练习 1：用 Python 查看 GGUF 元数据 ​

练习 2：追踪模型加载流程 ​

练习 3：添加新架构支持 ​

练习 4：使用 gguf_init_from_buffer 加载 GGUF ​

拓展挑战 ​

模型加载与 GGUF 格式 — 练习

练习 1：用 Python 查看 GGUF 元数据

练习 2：追踪模型加载流程

练习 3：添加新架构支持

练习 4：使用 gguf_init_from_buffer 加载 GGUF

拓展挑战