Token在计算机中的含义解析

Token(中文名:词元)是计算机领域中用于表示信息的基本单位,其含义因应用场景而异:

token在计算机中的含义

在自然语言处理与大语言模型中,Token是文本处理的最小单元,即模型输入与输出的基本单位,也是语义建模和计算的基础粒度。

Token的核心特点

  • 最小处理单位:模型不直接处理整句,而是将文本切分为Token。例如:   • 中文“我爱中国!”通常对应4–5个Token(如“我”“爱”“中国”“!”);   • 英文“apple”一般为1个Token,而“unstoppable”可能被拆为“un”“##stop”“##able”等子词Token。
  • 计费依据:主流AI服务(如通义千问、文心一言、GPT系列)按输入Token数 + 输出Token数合计计费,而非按字数或请求次数。
  • 上下文容量限制:模型支持的上下文长度以Token数衡量(如128K Token),超出部分将被截断或遗忘。
  • 语言差异明显:   • 1个汉字 ≈ 1–2个Token;   • 1个常见英文单词 ≈ 1个Token;   • 相同语义下,中文文本通常比英文多消耗约30%–50%的Token。