Skip to content

GGML 后端与硬件抽象

GGML 通过后端抽象层将计算图分发到不同硬件,实现 CPU、CUDA、Metal、Vulkan 等多种加速。

涵盖内容

章节核心主题
概念后端接口、缓冲区管理、任务调度
代码走读ggml-backend.cpp、ggml-cpu/、ggml-metal/
练习后端注册、缓冲区分配流程

核心概念

  • backend — 硬件后端的统一抽象接口
  • 缓冲区 (Buffer) — 后端管理的设备内存
  • 任务调度 — 将计算图节点分配到对应后端执行

前置知识

学习路径

读完本主题后,你将理解:

  • GGML 后端接口的设计模式
  • CPU 后端如何利用 SIMD 指令加速
  • CUDA/Metal 后端的 kernel 调度方式
  • 多后端协同工作的机制

→ 下一步:模型加载与 GGUF 格式