·3 分钟阅读

给你的 AI 应用提速:一行代码把响应从 8 秒降到 1.5 秒

新增 X-Thinking-Mode 请求头。简单的工具、翻译、轻量对话类应用,加一行代码就能让 AI 响应快 5 倍。

announcementperformanceaigemini

TL;DR

如果你的应用是工具类、翻译、简单聊天、JSON 生成这种场景,给 /api/ai/gemini 请求加一个 header:

X-Thinking-Mode: fast

响应时间从平均 8 秒降到 1.5 秒左右。不传这个 header,行为完全不变。


你的 AI 调用为什么慢?

最近我们盘了一遍线上数据,发现一件事:绝大多数 AI 调用,模型有 60–80% 的时间花在"思考"上——也就是用户根本看不到的内部推理过程。

具体一点:Gemini 3 Flash 默认每次调用平均生成 1001 个"思考 tokens",但真正给用户的回答只有 434 tokens。思考量是回答的 2.3 倍

对一些场景这是好事——比如复杂角色扮演、多步推理、长上下文回调。但对绝大多数轻量任务("把这段话翻译成英文"、"总结这段文章"、"给我一个 JSON 格式的回复"),思考其实没啥帮助,纯粹是在等。

现在你可以选

我们加了一个 opt-in 的请求头:X-Thinking-Mode。三档可选:

模式实际配置适合场景
fastthinkingLevel: minimal工具、翻译、短对话、分类、JSON 生成
balancedthinkingBudget: 200中等复杂度,需要一点推理
_(不传)_当前默认行为长篇 RPG、多轮角色扮演、复杂叙事

"fast" 不是把思考砍到 0——它是 Google 的自适应档:简单任务自动 0 思考,复杂任务给最少必要的思考。所以质量损失比想象的小。

怎么用

最简单的写法,加一个 header 就行:

const response = await fetch('/api/ai/gemini', {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json',
    'X-Thinking-Mode': 'fast',  // 👈 加这行
  },
  body: JSON.stringify({
    path: '/v1beta/models/gemini-3-flash-preview:generateContent',
    contents: [{ parts: [{ text: '把"你好世界"翻译成法语' }], role: 'user' }],
  }),
})

逐请求生效——你可以在同一个应用里混用。比如:

  • 玩家输入 → NPC 简短回复 → 用 fast
  • 关键剧情转折/结局判定 → 不传 header,让模型充分思考
  • JSON 工具调用 → 用 balanced

哪些场景适合用?

强烈推荐用 `fast` 的场景:

  • 翻译、总结、改写
  • 简单聊天机器人
  • 工具类应用(计算辅助、文档处理、代码片段)
  • 分类、打标签
  • 短回复的 NPC 对白
  • 任何"提示词清晰、输出短"的任务

建议用 `balanced` 的场景:

  • 输出长一点的创意写作
  • 简单角色扮演的中等回合
  • 结构化输出(JSON tool calls)

保持默认(不传 header)的场景:

  • 复杂长篇剧情生成
  • 多角色一致性(同一段里多个 NPC)
  • 长上下文回调("还记得 5 章前的 X 吗")
  • 关键决策(结局触发、规则判定)

副作用

fast 模式可能在以下情况略微掉质量:

  • 多步推理任务(数学题、逻辑题)
  • 需要长程注意力的输出(前后细节一致性)
  • 字段很多的结构化输出(JSON schema 复杂时偶发字段缺失)

如果你看到回答质量明显下降,移除 header 就能立刻恢复默认行为。或者降一档用 balanced

它怎么跟你已经设的 thinkingConfig 相处?

如果你在请求体的 generationConfig.thinkingConfig已经显式设了 thinking,平台不会用 header 覆盖你的设置。你的代码里写了什么就是什么。

优先级(高到低):

  1. 你在请求体里设的 thinkingConfig
  2. X-Thinking-Mode header
  3. 平台默认

我们为什么现在做这个?

很多创作者反馈"AI 响应有点慢"。我们查下来,发现几乎没人在 thinking 上做过主动选择——97% 的调用都是被默认配置拖累。给你们一个简单 opt-in 选项,是把控制权交回去的最干净方式。

下一步我们会在创作者后台加一个图形化的"性能模式"开关,让不写代码的创作者也能切换。先把 API 这层做出来。


试试看,遇到任何问题或者发现质量明显下降,告诉我们 →

Discord 或者 GitHub Issues

准备好分享你的作品了吗?

发布你的 AI 应用,几秒钟内获得专属落地页。

提交应用