给你的 AI 应用提速:一行代码把响应从 8 秒降到 1.5 秒
新增 X-Thinking-Mode 请求头。简单的工具、翻译、轻量对话类应用,加一行代码就能让 AI 响应快 5 倍。
TL;DR
如果你的应用是工具类、翻译、简单聊天、JSON 生成这种场景,给 /api/ai/gemini 请求加一个 header:
X-Thinking-Mode: fast响应时间从平均 8 秒降到 1.5 秒左右。不传这个 header,行为完全不变。
你的 AI 调用为什么慢?
最近我们盘了一遍线上数据,发现一件事:绝大多数 AI 调用,模型有 60–80% 的时间花在"思考"上——也就是用户根本看不到的内部推理过程。
具体一点:Gemini 3 Flash 默认每次调用平均生成 1001 个"思考 tokens",但真正给用户的回答只有 434 tokens。思考量是回答的 2.3 倍。
对一些场景这是好事——比如复杂角色扮演、多步推理、长上下文回调。但对绝大多数轻量任务("把这段话翻译成英文"、"总结这段文章"、"给我一个 JSON 格式的回复"),思考其实没啥帮助,纯粹是在等。
现在你可以选
我们加了一个 opt-in 的请求头:X-Thinking-Mode。三档可选:
| 模式 | 实际配置 | 适合场景 |
|---|---|---|
fast | thinkingLevel: minimal | 工具、翻译、短对话、分类、JSON 生成 |
balanced | thinkingBudget: 200 | 中等复杂度,需要一点推理 |
| _(不传)_ | 当前默认行为 | 长篇 RPG、多轮角色扮演、复杂叙事 |
"fast" 不是把思考砍到 0——它是 Google 的自适应档:简单任务自动 0 思考,复杂任务给最少必要的思考。所以质量损失比想象的小。
怎么用
最简单的写法,加一个 header 就行:
const response = await fetch('/api/ai/gemini', {
method: 'POST',
headers: {
'Content-Type': 'application/json',
'X-Thinking-Mode': 'fast', // 👈 加这行
},
body: JSON.stringify({
path: '/v1beta/models/gemini-3-flash-preview:generateContent',
contents: [{ parts: [{ text: '把"你好世界"翻译成法语' }], role: 'user' }],
}),
})逐请求生效——你可以在同一个应用里混用。比如:
- 玩家输入 → NPC 简短回复 → 用
fast - 关键剧情转折/结局判定 → 不传 header,让模型充分思考
- JSON 工具调用 → 用
balanced
哪些场景适合用?
强烈推荐用 `fast` 的场景:
- 翻译、总结、改写
- 简单聊天机器人
- 工具类应用(计算辅助、文档处理、代码片段)
- 分类、打标签
- 短回复的 NPC 对白
- 任何"提示词清晰、输出短"的任务
建议用 `balanced` 的场景:
- 输出长一点的创意写作
- 简单角色扮演的中等回合
- 结构化输出(JSON tool calls)
保持默认(不传 header)的场景:
- 复杂长篇剧情生成
- 多角色一致性(同一段里多个 NPC)
- 长上下文回调("还记得 5 章前的 X 吗")
- 关键决策(结局触发、规则判定)
副作用
fast 模式可能在以下情况略微掉质量:
- 多步推理任务(数学题、逻辑题)
- 需要长程注意力的输出(前后细节一致性)
- 字段很多的结构化输出(JSON schema 复杂时偶发字段缺失)
如果你看到回答质量明显下降,移除 header 就能立刻恢复默认行为。或者降一档用 balanced。
它怎么跟你已经设的 thinkingConfig 相处?
如果你在请求体的 generationConfig.thinkingConfig 里已经显式设了 thinking,平台不会用 header 覆盖你的设置。你的代码里写了什么就是什么。
优先级(高到低):
- 你在请求体里设的
thinkingConfig X-Thinking-Modeheader- 平台默认
我们为什么现在做这个?
很多创作者反馈"AI 响应有点慢"。我们查下来,发现几乎没人在 thinking 上做过主动选择——97% 的调用都是被默认配置拖累。给你们一个简单 opt-in 选项,是把控制权交回去的最干净方式。
下一步我们会在创作者后台加一个图形化的"性能模式"开关,让不写代码的创作者也能切换。先把 API 这层做出来。
试试看,遇到任何问题或者发现质量明显下降,告诉我们 →