代币与成本(来自 Cursor 的教学)

令牌与费用

现在我们已经大致了解了AI模型的工作原理,接下来我们将探讨有助于理解这些模型“如何思考”,以及它们使用成本如何计算的核心概念:令牌。

令牌可以被视为AI模型真正理解的“单词”。但有一个细节:这并非我们日常使用的单词。

就像您的计算机实际上并不理解字母“A”,而是以二进制代码(1和0)运行一样,AI模型也不直接处理像“hello”或“world”这样的单词。相反,它们将所有内容分解为更小的部分——令牌

例如,“hello”可能是一个令牌,而“understanding”则可能由多个令牌组成:“under”、“stand”和“ing”。有时,甚至单词的部分、标点符号或空格也会被视为独立的令牌。

运行提示并启用令牌视图开始

在与AI编程助手协作时,提供更好上下文的技巧有哪些?请简洁回答。

为什么这很重要?有两个原因:

  1. 费用按令牌计算。 您支付的是令牌,而不是单词或字符。
  2. 模型速度以令牌为单位衡量。 更快的模型具有更高的TPS(每秒令牌数),向用户返回结果。

我们首先讨论费用,因为它直接影响您使用AI模型时的支出。

什么是令牌

如果继续类比API,令牌是我们衡量和计费输入和输出流量的单位。

AI模型按两种类型的令牌计费:

  1. 输入令牌 —— 您发送给模型的所有内容:您的请求和对话历史上下文。
  2. 输出令牌 —— 模型返回给您的所有内容。

输出令牌通常比输入令牌贵2至4倍,因为生成新内容需要更多的计算资源,而不仅仅是处理您发送的内容。

由于AI模型按令牌计费,理解令牌是控制成本的关键。这就像知道您的服务器成本是多少。

重要的是要有意识地选择输入上下文的信息量(我们稍后会再讨论这一点),以及如何引导模型,以使回答要么简洁,要么详尽。

流式输出响应

您是否注意到ChatGPT和其他AI聊天机器人似乎“实时打字”?这不仅仅是视觉效果——模型实际上确实如此“内部运作”。

AI模型逐个生成令牌,依次进行。它们预测下一个令牌,然后使用该预测来预测下一个令牌,如此循环。因此,您看到的是答案逐字(更准确地说,逐令牌)出现。

答案可以流式输出。这很方便,因为您无需等待整个答案完成(可能需要几分钟),并且可以在模型开始偏离主题时随时中断它。

关于流式输出,以下哪项陈述是正确的?

流式输出只是界面的技巧;模型会瞬间生成全部文本。

模型逐个生成令牌,并可输出部分结果。

流式输出降低了输出令牌的成本。

流式输出禁用了中断功能。

检查重置

优化令牌使用

AI工具经常采用方法来减少发送到基础模型的令牌数量。例如,自动缓存您重复使用的请求部分,或帮助管理每个请求中包含的上下文。