项目概览与构建系统

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理库，以最小依赖和高性能著称，支持多种硬件后端与量化方案。

涵盖内容

章节	核心主题
概念	项目架构、模块划分、构建流程
代码走读	CMakeLists.txt、入口文件、核心头文件
练习	编译配置、模块关系梳理

核心概念

纯 C/C++ 实现 — 无外部依赖，单一代码库包含推理、分词、采样全流程
分层架构 — GGML 张量层 → 后端抽象层 → llama 推理层 → 工具层
多后端支持 — CPU (SIMD)、CUDA、Metal、Vulkan、SYCL 等
CMake 构建 — 通过选项开关控制后端编译

前置知识

C/C++ 编译基础（gcc/clang、make）
CMake 基础语法
大语言模型推理的基本概念

学习路径

读完本主题后，你将理解：

llama.cpp 的整体架构与模块划分
如何从源码编译并启用不同后端
核心头文件 llama.h 提供的 C API 设计
从 ggml 到 llama 的分层关系

→ 下一步：GGML 张量库基础