如何节约 Token 使用

所属：AI 日常技能
一句话：Token 花在两处 —— 产品运行时（用户对话）和 开发时（Cursor 等编码助手）；省 Token = 少调用、少注入、少纠错轮次。

先分清两个维度

维度	谁在消耗	典型场景
运行时	你的 Agent / RAG / 客服	用户每问一句 → System + RAG + 历史 + 输出
开发时	你用的 AI 编辑器	写脚本、改 PRD、部署 — 每轮对话都算 Token

下面各给 立刻能用的习惯；做产品时再看「运行时六策略」。

一、开发时：少轮次 = 少 Token（最重要）

1. 一次说清任务，附上下文

❌ 「帮我写个脚本」→ AI 乱写 → 你纠正 3 轮
✅ 「按项目规范写 seed 脚本：用 resolve_dev_user_id()、先查再 insert、python -m scripts.xxx」

原则：规格写进第一句，比后面纠错省 60%～75% 轮次。

2. 用 Rules / Skills，别每轮重复教

本项目已有 .cursorrules、CONVENTIONS.md、Cursor Skills —— AI 应自动知道：

禁止硬编码 dev_user
脚本幂等、DB 初始化顺序
部署先读 docs/33-*

没有规范注入时：弱模型会猜 → 你反复教 → Token 暴涨。
有规范注入时：弱模型只「遵循」，1 轮出活。

3. 缩小上下文，别整库 @

做法	效果
@ 单个文件 / 目录	只注入相关代码
开新对话做无关任务	避免历史 500+ token 滚雪球
大 refactor 分步：先 plan 再改	减少无效 diff 讨论

4. 选对模型档位

列提纲、改文案、格式化 → 小模型 / Fast 档
架构、复杂 bug、跨模块 → 强模型
不必事事 Opus / GPT-4 — 贵且慢

5. 发现 AI 走偏立刻停

错误代码继续堆 → 回滚重做 → 错误放大 N 倍 Token。
规范里的 阻断规则（硬编码、漏迁移等）就是为「第一轮就停」。

二、运行时：做 Agent / RAG 产品时

每次用户提问 ≈ 下面加总（量级参考）：

text

System Prompt        ~200
RAG 注入             150–1200
对话历史（约 5 轮）   ~500
用户消息             ~20
模型输出             ~300
─────────────────────────
合计                 ~1200–2200 tokens / 次

六条策略（按优先级）

优先级	策略	做什么	效果
P0	意图分级	闲聊 / FAQ → 模板或 0 Token；复杂才上大模型	~30% 请求零成本
P0	语义缓存	相似问法直接返历史答案	重复问省 40%～60%
P0	模型路由	简单 → mini/Flash；复杂 → 全尺寸	单价差一个数量级
P1	RAG 质量过滤	相似度低的 chunk 不注入	输入 Token −20%～30%
P1	注入上限	RAG 总量封顶（如 1000 token）	防超长上下文
P2	历史压缩	多轮后用小模型摘要代替全文历史	长对话 −60%～80%

组合优化后，典型 RAG 产品可从 ~¥66/天 → ~¥10/天（量级，视调用量而定）。
晨悦编排侧已有：多 Provider、Layer1 本地寒暄、可配路由 — 见 2.2 Coze 认知。

三、日常自查清单

今天用 AI 写东西前：

[ ] 任务是否一句话 + 约束写清楚了？
[ ] 是否只 @ 需要的文件？
[ ] 是否可以用更小模型试第一轮？
[ ] 项目 Rules 是否已生效（不必口头重复规范）？

你在配 Agent 时：

[ ] 寒暄 / FAQ 能否不走 LLM？
[ ] 重复问题有没有缓存？
[ ] RAG 有没有相似度阈值和注入上限？

四、和本手册其他块的关系

想深入…	去看
SDAD 怎么规格先行	方法论 · SDAD
平台模型与模块	块二 · 平台
成本公式与实现细节	工程 `docs/44-Token成本优化方案.md`
RAG 成本专题	工程 `docs/32-RAG成本分析与优化策略.md`

练习（可选）

统计你最近一个开发任务和 AI 的对话轮次；若 >3 轮，复盘第一句是否缺规格。
打开一个 Agent 工作流，标出：哪几步可以「模板 / 小模型 / 缓存」替代全量大模型。

如何节约 Token 使用 ​

先分清两个维度 ​

一、开发时：少轮次 = 少 Token（最重要） ​

1. 一次说清任务，附上下文 ​

2. 用 Rules / Skills，别每轮重复教 ​

3. 缩小上下文，别整库 @ ​

4. 选对模型档位 ​

5. 发现 AI 走偏立刻停 ​

二、运行时：做 Agent / RAG 产品时 ​

六条策略（按优先级） ​

三、日常自查清单 ​

四、和本手册其他块的关系 ​

练习（可选） ​