Token在计算机中的含义解析
Token(中文名:词元)是计算机领域中用于表示信息的基本单位,其含义因应用场景而异:
token在计算机中的含义
在自然语言处理与大语言模型中,Token是文本处理的最小单元,即模型输入与输出的基本单位,也是语义建模和计算的基础粒度。
Token的核心特点
- 最小处理单位:模型不直接处理整句,而是将文本切分为Token。例如: • 中文“我爱中国!”通常对应4–5个Token(如“我”“爱”“中国”“!”); • 英文“apple”一般为1个Token,而“unstoppable”可能被拆为“un”“##stop”“##able”等子词Token。
- 计费依据:主流AI服务(如通义千问、文心一言、GPT系列)按输入Token数 + 输出Token数合计计费,而非按字数或请求次数。
- 上下文容量限制:模型支持的上下文长度以Token数衡量(如128K Token),超出部分将被截断或遗忘。
- 语言差异明显: • 1个汉字 ≈ 1–2个Token; • 1个常见英文单词 ≈ 1个Token; • 相同语义下,中文文本通常比英文多消耗约30%–50%的Token。