Skip to content

项目概览与构建系统

llama.cpp 是一个纯 C/C++ 实现的 LLM 推理库,以最小依赖和高性能著称,支持多种硬件后端与量化方案。

涵盖内容

章节核心主题
概念项目架构、模块划分、构建流程
代码走读CMakeLists.txt、入口文件、核心头文件
练习编译配置、模块关系梳理

核心概念

  • 纯 C/C++ 实现 — 无外部依赖,单一代码库包含推理、分词、采样全流程
  • 分层架构 — GGML 张量层 → 后端抽象层 → llama 推理层 → 工具层
  • 多后端支持 — CPU (SIMD)、CUDA、Metal、Vulkan、SYCL 等
  • CMake 构建 — 通过选项开关控制后端编译

前置知识

  • C/C++ 编译基础(gcc/clang、make)
  • CMake 基础语法
  • 大语言模型推理的基本概念

学习路径

读完本主题后,你将理解:

  • llama.cpp 的整体架构与模块划分
  • 如何从源码编译并启用不同后端
  • 核心头文件 llama.h 提供的 C API 设计
  • ggmlllama 的分层关系

→ 下一步:GGML 张量库基础