如何使用 tiktoken 计算 token 数量
tiktoken
是 OpenAI 推出的一个快速的开源分词器。
给定一个文本字符串(例如 "tiktoken is great!"
)和一个编码(例如 "cl100k_base"
),分词器可以将文本字符串拆分成一个 token 列表(例如 ["t", "ik", "token", " is", " great", "!"]
)。
将文本字符串拆分成 token 有用,因为 GPT 模型以 token 的形式查看文本。知道文本字符串中有多少 token 可以告诉你(a)该字符串是否对于文本模型来说太长而无法处理,以及(b)OpenAI API 调用会花费多少费用(因为使用量是按 token 收费的)。
编码
编码指定了如何将文本转换为 token。不同的模型使用不同的编码。
tiktoken
支持 OpenAI 模型使用的三种编码:
| 编码名称 | OpenAI 模型