如何使用 tiktoken 计算 token 数量

tiktoken 是 OpenAI 推出的一个快速的开源分词器。

给定一个文本字符串(例如 "tiktoken is great!")和一个编码(例如 "cl100k_base"),分词器可以将文本字符串拆分成一个 token 列表(例如 ["t", "ik", "token", " is", " great", "!"])。

将文本字符串拆分成 token 有用,因为 GPT 模型以 token 的形式查看文本。知道文本字符串中有多少 token 可以告诉你(a)该字符串是否对于文本模型来说太长而无法处理,以及(b)OpenAI API 调用会花费多少费用(因为使用量是按 token 收费的)。

编码

编码指定了如何将文本转换为 token。不同的模型使用不同的编码。

tiktoken 支持 OpenAI 模型使用的三种编码:

| 编码名称 | OpenAI 模型