Appearance
llama.cpp 学习笔记
底层张量运算与计算图,支持自动微分与多种数据类型
CPU (SIMD)、CUDA、Metal、Vulkan 等多种硬件后端统一抽象
统一的模型权重与元数据容器,支持 mmap 高效加载
从 1.5-bit 到 8-bit 的量化支持,平衡精度与性能
top-k/top-p/mirostat/grammar 等采样器灵活组合
llama-server 提供 HTTP API,兼容 OpenAI 接口格式