Appearance
如何节约 Token 使用
所属:AI 日常技能
一句话:Token 花在两处 —— 产品运行时(用户对话)和 开发时(Cursor 等编码助手);省 Token = 少调用、少注入、少纠错轮次。
先分清两个维度
| 维度 | 谁在消耗 | 典型场景 |
|---|---|---|
| 运行时 | 你的 Agent / RAG / 客服 | 用户每问一句 → System + RAG + 历史 + 输出 |
| 开发时 | 你用的 AI 编辑器 | 写脚本、改 PRD、部署 — 每轮对话都算 Token |
下面各给 立刻能用的习惯;做产品时再看「运行时六策略」。
一、开发时:少轮次 = 少 Token(最重要)
1. 一次说清任务,附上下文
❌ 「帮我写个脚本」→ AI 乱写 → 你纠正 3 轮
✅ 「按项目规范写 seed 脚本:用 resolve_dev_user_id()、先查再 insert、python -m scripts.xxx」
原则:规格写进第一句,比后面纠错省 60%~75% 轮次。
2. 用 Rules / Skills,别每轮重复教
本项目已有 .cursorrules、CONVENTIONS.md、Cursor Skills —— AI 应自动知道:
- 禁止硬编码
dev_user - 脚本幂等、DB 初始化顺序
- 部署先读
docs/33-*
没有规范注入时:弱模型会猜 → 你反复教 → Token 暴涨。
有规范注入时:弱模型只「遵循」,1 轮出活。
3. 缩小上下文,别整库 @
| 做法 | 效果 |
|---|---|
| @ 单个文件 / 目录 | 只注入相关代码 |
| 开新对话做无关任务 | 避免历史 500+ token 滚雪球 |
| 大 refactor 分步:先 plan 再改 | 减少无效 diff 讨论 |
4. 选对模型档位
- 列提纲、改文案、格式化 → 小模型 / Fast 档
- 架构、复杂 bug、跨模块 → 强模型
- 不必事事 Opus / GPT-4 — 贵且慢
5. 发现 AI 走偏立刻停
错误代码继续堆 → 回滚重做 → 错误放大 N 倍 Token。
规范里的 阻断规则(硬编码、漏迁移等)就是为「第一轮就停」。
二、运行时:做 Agent / RAG 产品时
每次用户提问 ≈ 下面加总(量级参考):
text
System Prompt ~200
RAG 注入 150–1200
对话历史(约 5 轮) ~500
用户消息 ~20
模型输出 ~300
─────────────────────────
合计 ~1200–2200 tokens / 次六条策略(按优先级)
| 优先级 | 策略 | 做什么 | 效果 |
|---|---|---|---|
| P0 | 意图分级 | 闲聊 / FAQ → 模板或 0 Token;复杂才上大模型 | ~30% 请求零成本 |
| P0 | 语义缓存 | 相似问法直接返历史答案 | 重复问省 40%~60% |
| P0 | 模型路由 | 简单 → mini/Flash;复杂 → 全尺寸 | 单价差一个数量级 |
| P1 | RAG 质量过滤 | 相似度低的 chunk 不注入 | 输入 Token −20%~30% |
| P1 | 注入上限 | RAG 总量封顶(如 1000 token) | 防超长上下文 |
| P2 | 历史压缩 | 多轮后用小模型摘要代替全文历史 | 长对话 −60%~80% |
组合优化后,典型 RAG 产品可从 ~¥66/天 → ~¥10/天(量级,视调用量而定)。
晨悦编排侧已有:多 Provider、Layer1 本地寒暄、可配路由 — 见 2.2 Coze 认知。
三、日常自查清单
今天用 AI 写东西前:
- [ ] 任务是否一句话 + 约束写清楚了?
- [ ] 是否只 @ 需要的文件?
- [ ] 是否可以用更小模型试第一轮?
- [ ] 项目 Rules 是否已生效(不必口头重复规范)?
你在配 Agent 时:
- [ ] 寒暄 / FAQ 能否不走 LLM?
- [ ] 重复问题有没有缓存?
- [ ] RAG 有没有相似度阈值和注入上限?
四、和本手册其他块的关系
| 想深入… | 去看 |
|---|---|
| SDAD 怎么规格先行 | 方法论 · SDAD |
| 平台模型与模块 | 块二 · 平台 |
| 成本公式与实现细节 | 工程 docs/44-Token成本优化方案.md |
| RAG 成本专题 | 工程 docs/32-RAG成本分析与优化策略.md |
练习(可选)
- 统计你最近一个开发任务和 AI 的对话轮次;若 >3 轮,复盘第一句是否缺规格。
- 打开一个 Agent 工作流,标出:哪几步可以「模板 / 小模型 / 缓存」替代全量大模型。