GGML 后端与硬件抽象

GGML 通过后端抽象层将计算图分发到不同硬件，实现 CPU、CUDA、Metal、Vulkan 等多种加速。

涵盖内容

章节	核心主题
概念	后端接口、缓冲区管理、任务调度
代码走读	ggml-backend.cpp、ggml-cpu/、ggml-metal/
练习	后端注册、缓冲区分配流程

核心概念

backend — 硬件后端的统一抽象接口
缓冲区 (Buffer) — 后端管理的设备内存
任务调度 — 将计算图节点分配到对应后端执行

前置知识

GGML 张量库基础
了解 CPU SIMD、GPU 编程基础概念
了解设备内存管理

学习路径

读完本主题后，你将理解：

GGML 后端接口的设计模式
CPU 后端如何利用 SIMD 指令加速
CUDA/Metal 后端的 kernel 调度方式
多后端协同工作的机制

→ 下一步：模型加载与 GGUF 格式