Skip to content

分词与词表

llama.cpp 支持多种分词算法(BPE、SPM、WPM、Unigram),通过 llama-vocab.cpp 统一实现。

涵盖内容

章节核心主题
概念分词算法、词表结构、特殊 token
代码走读llama-vocab.cpp 实现
练习分词流程追踪、词表分析

核心概念

  • tokenization — 将文本拆分为 token 序列
  • 词表 — 模型支持的 token 集合及对应的嵌入向量
  • BPE / SPM / WPM — 不同的子词分词算法

前置知识

学习路径

读完本主题后,你将理解:

  • llama.cpp 如何在 C++ 中实现多种分词算法
  • 词表在 GGUF 中的存储与加载方式
  • 特殊 token(BOS、EOS、PAD)的处理
  • 分词与反分词(detokenization)的流程

→ 下一步:Transformer 推理图