Appearance
分词与词表
llama.cpp 支持多种分词算法(BPE、SPM、WPM、Unigram),通过
llama-vocab.cpp统一实现。
涵盖内容
| 章节 | 核心主题 |
|---|---|
| 概念 | 分词算法、词表结构、特殊 token |
| 代码走读 | llama-vocab.cpp 实现 |
| 练习 | 分词流程追踪、词表分析 |
核心概念
- tokenization — 将文本拆分为 token 序列
- 词表 — 模型支持的 token 集合及对应的嵌入向量
- BPE / SPM / WPM — 不同的子词分词算法
前置知识
- 模型加载与 GGUF 格式
- Unicode 与 UTF-8 编码基础
- 了解 BPE 分词原理
学习路径
读完本主题后,你将理解:
- llama.cpp 如何在 C++ 中实现多种分词算法
- 词表在 GGUF 中的存储与加载方式
- 特殊 token(BOS、EOS、PAD)的处理
- 分词与反分词(detokenization)的流程
→ 下一步:Transformer 推理图