分词与词表

llama.cpp 支持多种分词算法（BPE、SPM、WPM、Unigram），通过 llama-vocab.cpp 统一实现。

涵盖内容

章节	核心主题
概念	分词算法、词表结构、特殊 token
代码走读	llama-vocab.cpp 实现
练习	分词流程追踪、词表分析

核心概念

tokenization — 将文本拆分为 token 序列
词表 — 模型支持的 token 集合及对应的嵌入向量
BPE / SPM / WPM — 不同的子词分词算法

前置知识

模型加载与 GGUF 格式
Unicode 与 UTF-8 编码基础
了解 BPE 分词原理

学习路径

读完本主题后，你将理解：

llama.cpp 如何在 C++ 中实现多种分词算法
词表在 GGUF 中的存储与加载方式
特殊 token（BOS、EOS、PAD）的处理
分词与反分词（detokenization）的流程

→ 下一步：Transformer 推理图