Appearance
内容安全
Agent 运行时 · 接入层首尾(目标态在 ① 之前 / ⑩ 之后)→ Agent 运行时 §5
① PM 必懂
- 商用 Agent / 小程序提审:用户输入 + 模型输出 均需审核
- 平台 Chat API 与 ToC 客户端可分层:客户端先拦,平台统一兜底更稳
- 医疗/母婴类:敏感词 + 模板化「建议咨询医生」,不单靠 LLM 自律
② 晨悦实现
| 层级 | 现状 | 接口/落点 |
|---|---|---|
| 客户端 | ✅ 小程序 checkUserText(XiaoYueShell) | 发送前 |
| 平台 API | POST /api/security/check 等 | app/api/security.py |
| Chat 管线内置 | 🔲 待统一:入站/出站钩子 | 目标:chat.py ① 前 / ⑩ 后 |
| Agent Prompt 边界 | ✅ system_prompt 硬边界 | 各 Agent 配置 |
③ 实践举例
- AgentPM:用户粘贴需求文档 → 入站检查超长/违规段
- 母婴小悦:用户输入 + AI 回复(含商品文案)出站检查;价格/链接只来自 API 字段,LLM 不编造
设计真源:docs/baby-xiaoyue-ai-upgrade.md §8.2
④ 实战一步
- 调用
/api/security/check测一条正常/敏感句 - 在 Agent system_prompt 加入「不涉及医疗诊断」边界
- 提审前清单:入站 ✅ · 出站 🔲 · Prompt ✅