给你的 AI 应用提速：一行代码把响应从 8 秒降到 1.5 秒

TL;DR

如果你的应用是工具类、翻译、简单聊天、JSON 生成这种场景，给 /api/ai/gemini 请求加一个 header：

X-Thinking-Mode: fast

响应时间从平均 8 秒降到 1.5 秒左右。不传这个 header，行为完全不变。

你的 AI 调用为什么慢？

最近我们盘了一遍线上数据，发现一件事：绝大多数 AI 调用，模型有 60–80% 的时间花在"思考"上——也就是用户根本看不到的内部推理过程。

具体一点：Gemini 3 Flash 默认每次调用平均生成 1001 个"思考 tokens"，但真正给用户的回答只有 434 tokens。思考量是回答的 2.3 倍。

对一些场景这是好事——比如复杂角色扮演、多步推理、长上下文回调。但对绝大多数轻量任务（"把这段话翻译成英文"、"总结这段文章"、"给我一个 JSON 格式的回复"），思考其实没啥帮助，纯粹是在等。

现在你可以选

我们加了一个 opt-in 的请求头：X-Thinking-Mode。三档可选：

模式	实际配置	适合场景
`fast`	`thinkingLevel: minimal`	工具、翻译、短对话、分类、JSON 生成
`balanced`	`thinkingBudget: 200`	中等复杂度，需要一点推理
_(不传)_	当前默认行为	长篇 RPG、多轮角色扮演、复杂叙事

"fast" 不是把思考砍到 0——它是 Google 的自适应档：简单任务自动 0 思考，复杂任务给最少必要的思考。所以质量损失比想象的小。

怎么用

最简单的写法，加一个 header 就行：

const response = await fetch('/api/ai/gemini', {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json',
    'X-Thinking-Mode': 'fast',  // 👈 加这行
  },
  body: JSON.stringify({
    path: '/v1beta/models/gemini-3-flash-preview:generateContent',
    contents: [{ parts: [{ text: '把"你好世界"翻译成法语' }], role: 'user' }],
  }),
})

逐请求生效——你可以在同一个应用里混用。比如：

玩家输入 → NPC 简短回复 → 用 fast
关键剧情转折/结局判定 → 不传 header，让模型充分思考
JSON 工具调用 → 用 balanced

哪些场景适合用？

强烈推荐用 `fast` 的场景：

翻译、总结、改写
简单聊天机器人
工具类应用（计算辅助、文档处理、代码片段）
分类、打标签
短回复的 NPC 对白
任何"提示词清晰、输出短"的任务

建议用 `balanced` 的场景：

输出长一点的创意写作
简单角色扮演的中等回合
结构化输出（JSON tool calls）

保持默认（不传 header）的场景：

复杂长篇剧情生成
多角色一致性（同一段里多个 NPC）
长上下文回调（"还记得 5 章前的 X 吗"）
关键决策（结局触发、规则判定）

副作用

fast 模式可能在以下情况略微掉质量：

多步推理任务（数学题、逻辑题）
需要长程注意力的输出（前后细节一致性）
字段很多的结构化输出（JSON schema 复杂时偶发字段缺失）

如果你看到回答质量明显下降，移除 header 就能立刻恢复默认行为。或者降一档用 balanced。

它怎么跟你已经设的 thinkingConfig 相处？

如果你在请求体的 generationConfig.thinkingConfig 里已经显式设了 thinking，平台不会用 header 覆盖你的设置。你的代码里写了什么就是什么。

优先级（高到低）：

你在请求体里设的 thinkingConfig
X-Thinking-Mode header
平台默认

我们为什么现在做这个？

很多创作者反馈"AI 响应有点慢"。我们查下来，发现几乎没人在 thinking 上做过主动选择——97% 的调用都是被默认配置拖累。给你们一个简单 opt-in 选项，是把控制权交回去的最干净方式。

下一步我们会在创作者后台加一个图形化的"性能模式"开关，让不写代码的创作者也能切换。先把 API 这层做出来。

试试看，遇到任何问题或者发现质量明显下降，告诉我们 →

Discord 或者 GitHub Issues