Token在计算机中的含义解析

Token（中文名：词元）是计算机领域中用于表示信息的基本单位，其含义因应用场景而异：

在自然语言处理与大语言模型中，Token是文本处理的最小单元，即模型输入与输出的基本单位，也是语义建模和计算的基础粒度。

Token的核心特点

最小处理单位：模型不直接处理整句，而是将文本切分为Token。例如：　　• 中文“我爱中国！”通常对应4–5个Token（如“我”“爱”“中国”“！”）；　　• 英文“apple”一般为1个Token，而“unstoppable”可能被拆为“un”“##stop”“##able”等子词Token。
计费依据：主流AI服务（如通义千问、文心一言、GPT系列）按输入Token数 + 输出Token数合计计费，而非按字数或请求次数。
上下文容量限制：模型支持的上下文长度以Token数衡量（如128K Token），超出部分将被截断或遗忘。
语言差异明显：　　• 1个汉字 ≈ 1–2个Token；　　• 1个常见英文单词 ≈ 1个Token；　　• 相同语义下，中文文本通常比英文多消耗约30%–50%的Token。