Skip to content

如何节约 Token 使用

所属AI 日常技能
一句话:Token 花在两处 —— 产品运行时(用户对话)和 开发时(Cursor 等编码助手);省 Token = 少调用、少注入、少纠错轮次。


先分清两个维度

维度谁在消耗典型场景
运行时你的 Agent / RAG / 客服用户每问一句 → System + RAG + 历史 + 输出
开发时你用的 AI 编辑器写脚本、改 PRD、部署 — 每轮对话都算 Token

下面各给 立刻能用的习惯;做产品时再看「运行时六策略」。


一、开发时:少轮次 = 少 Token(最重要)

1. 一次说清任务,附上下文

❌ 「帮我写个脚本」→ AI 乱写 → 你纠正 3 轮
✅ 「按项目规范写 seed 脚本:用 resolve_dev_user_id()、先查再 insert、python -m scripts.xxx

原则:规格写进第一句,比后面纠错省 60%~75% 轮次。

2. 用 Rules / Skills,别每轮重复教

本项目已有 .cursorrulesCONVENTIONS.md、Cursor Skills —— AI 应自动知道:

  • 禁止硬编码 dev_user
  • 脚本幂等、DB 初始化顺序
  • 部署先读 docs/33-*

没有规范注入时:弱模型会猜 → 你反复教 → Token 暴涨。
有规范注入时:弱模型只「遵循」,1 轮出活。

3. 缩小上下文,别整库 @

做法效果
@ 单个文件 / 目录只注入相关代码
开新对话做无关任务避免历史 500+ token 滚雪球
大 refactor 分步:先 plan 再改减少无效 diff 讨论

4. 选对模型档位

  • 列提纲、改文案、格式化 → 小模型 / Fast 档
  • 架构、复杂 bug、跨模块 → 强模型
  • 不必事事 Opus / GPT-4 — 贵且慢

5. 发现 AI 走偏立刻停

错误代码继续堆 → 回滚重做 → 错误放大 N 倍 Token
规范里的 阻断规则(硬编码、漏迁移等)就是为「第一轮就停」。


二、运行时:做 Agent / RAG 产品时

每次用户提问 ≈ 下面加总(量级参考):

text
System Prompt        ~200
RAG 注入             150–1200
对话历史(约 5 轮)   ~500
用户消息             ~20
模型输出             ~300
─────────────────────────
合计                 ~1200–2200 tokens / 次

六条策略(按优先级)

优先级策略做什么效果
P0意图分级闲聊 / FAQ → 模板或 0 Token;复杂才上大模型~30% 请求零成本
P0语义缓存相似问法直接返历史答案重复问省 40%~60%
P0模型路由简单 → mini/Flash;复杂 → 全尺寸单价差一个数量级
P1RAG 质量过滤相似度低的 chunk 不注入输入 Token −20%~30%
P1注入上限RAG 总量封顶(如 1000 token)防超长上下文
P2历史压缩多轮后用小模型摘要代替全文历史长对话 −60%~80%

组合优化后,典型 RAG 产品可从 ~¥66/天 → ~¥10/天(量级,视调用量而定)。
晨悦编排侧已有:多 Provider、Layer1 本地寒暄、可配路由 — 见 2.2 Coze 认知


三、日常自查清单

今天用 AI 写东西前:

  • [ ] 任务是否一句话 + 约束写清楚了?
  • [ ] 是否只 @ 需要的文件?
  • [ ] 是否可以用更小模型试第一轮?
  • [ ] 项目 Rules 是否已生效(不必口头重复规范)?

你在配 Agent 时:

  • [ ] 寒暄 / FAQ 能否不走 LLM?
  • [ ] 重复问题有没有缓存?
  • [ ] RAG 有没有相似度阈值和注入上限?

四、和本手册其他块的关系

想深入…去看
SDAD 怎么规格先行方法论 · SDAD
平台模型与模块块二 · 平台
成本公式与实现细节工程 docs/44-Token成本优化方案.md
RAG 成本专题工程 docs/32-RAG成本分析与优化策略.md

练习(可选)

  1. 统计你最近一个开发任务和 AI 的对话轮次;若 >3 轮,复盘第一句是否缺规格。
  2. 打开一个 Agent 工作流,标出:哪几步可以「模板 / 小模型 / 缓存」替代全量大模型。

晨悦 AI 实践手册