代币与成本（来自 Cursor 的教学）

ivan · 2026 年2 月 10 日 07:07

令牌与费用

现在我们已经大致了解了AI模型的工作原理，接下来我们将探讨有助于理解这些模型“如何思考”，以及它们使用成本如何计算的核心概念：令牌。

令牌可以被视为AI模型真正理解的“单词”。但有一个细节：这并非我们日常使用的单词。

就像您的计算机实际上并不理解字母“A”，而是以二进制代码（1和0）运行一样，AI模型也不直接处理像“hello”或“world”这样的单词。相反，它们将所有内容分解为更小的部分——令牌。

例如，“hello”可能是一个令牌，而“understanding”则可能由多个令牌组成：“under”、“stand”和“ing”。有时，甚至单词的部分、标点符号或空格也会被视为独立的令牌。

运行提示并启用令牌视图开始

在与AI编程助手协作时，提供更好上下文的技巧有哪些？请简洁回答。

为什么这很重要？有两个原因：

我们首先讨论费用，因为它直接影响您使用AI模型时的支出。

如果继续类比API，令牌是我们衡量和计费输入和输出流量的单位。

AI模型按两种类型的令牌计费：

输出令牌通常比输入令牌贵2至4倍，因为生成新内容需要更多的计算资源，而不仅仅是处理您发送的内容。

由于AI模型按令牌计费，理解令牌是控制成本的关键。这就像知道您的服务器成本是多少。

重要的是要有意识地选择输入上下文的信息量（我们稍后会再讨论这一点），以及如何引导模型，以使回答要么简洁，要么详尽。

您是否注意到ChatGPT和其他AI聊天机器人似乎“实时打字”？这不仅仅是视觉效果——模型实际上确实如此“内部运作”。

AI模型逐个生成令牌，依次进行。它们预测下一个令牌，然后使用该预测来预测下一个令牌，如此循环。因此，您看到的是答案逐字（更准确地说，逐令牌）出现。

答案可以流式输出。这很方便，因为您无需等待整个答案完成（可能需要几分钟），并且可以在模型开始偏离主题时随时中断它。

关于流式输出，以下哪项陈述是正确的？

流式输出只是界面的技巧；模型会瞬间生成全部文本。

模型逐个生成令牌，并可输出部分结果。

流式输出降低了输出令牌的成本。

流式输出禁用了中断功能。

检查重置

AI工具经常采用方法来减少发送到基础模型的令牌数量。例如，自动缓存您重复使用的请求部分，或帮助管理每个请求中包含的上下文。

话题	回复	浏览量
Не копить запасы, а отдавать ценность в момент нужды (Lean) Основная gemba	20	2026 年6 月 26 日
Немного о AI-редакторе Cursor AI legal	15	2025 年12 月 3 日
Self-hosted Discourse AI Sentiment: GPU и CPU варианты AI документация	46	2026 年3 月 30 日
Руководство к действию в любой ситуации Мысль дня	54	2025 年7 月 6 日
Настройка vLLM для максимальной производительности AI medium	24	2025 年12 月 1 日