tokenization | llama.cpp 学习笔记

分词 (Tokenization) 将输入文本拆分为模型能处理的 token ID 序列，是 LLM 推理的第一步。

为什么需要 tokenization

模型不能直接处理原始文本，需要将文本转换为固定词表中的 token ID 序列。分词算法的质量直接影响模型的处理效率和能力（如多语言支持、代码处理等）。

llama.cpp 支持多种分词算法：

类型	模型	算法
SPM	LLaMA, Mistral	SentencePiece (BPE + byte fallback)
BPE	GPT-2, Qwen	Byte Pair Encoding
WPM	BERT	WordPiece
UGM	T5	Unigram
RWKV	RWKV	Greedy tokenization
HybridDNA	Carbon-3B	BPE + DNA k-mer（6-base 固定长度）混合分词

分词流程：