OpenAI 发布 GPT-Realtime-2 语音模型

OpenAI 在 Realtime API 发布 GPT-Realtime-2 语音模型、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。3 款模型分别覆盖实时语音推理、实时语音翻译与流式语音转写，面向可对话、可调用工具、可跨语言工作的语音应用。GPT-Realtime-2 的上下文窗口从 32K 扩展到 128K，并提供从 minimal 到 xhigh 的可调推理强度。

GPT-Realtime-2 语音模型强化推理与工具调用

根据 OpenAI 官方发布说明，GPT-Realtime-2 是其首个具备 GPT-5 级推理能力的实时语音模型。OpenAI 将它定位为面向生产级语音 agent 的模型，而不只是用于快速问答的语音接口。模型可以在对话继续进行时调用工具，处理用户打断与修正，并用更贴合场景的语气回应。开发者还可以启用短前置语，例如 let me check that，用来提示用户系统正在处理请求。GPT-Realtime-2 支持并行工具调用，能够用 checking your calendar 等短句把工具动作显性化。上下文窗口从 32K 提升至 128K，有助于更长会话和复杂任务流。推理强度提供 minimal、low、medium、high、xhigh 5 档，默认值为 low。这让开发者可以在低延迟与复杂推理之间取舍。语音 AI 三类工作流示意图

实时语音评测显示推理与指令跟随提升

OpenAI 给出的音频评测显示，GPT-Realtime-2 high 在 Big Bench Audio 的音频智能任务上达到 96.6% 准确率，高于 GPT-Realtime-1.5 的 81.4%。按 OpenAI 的表述，这相当于提升 15.2%。在 Audio MultiChallenge 指令跟随测试中，GPT-Realtime-2 xhigh 的平均通过率为 48.5%，高于 GPT-Realtime-1.5 的 34.7%，提升 13.8%。Big Bench Audio 评估支持音频输入模型的复杂推理能力。Audio MultiChallenge 关注多轮语音对话中的指令跟随、上下文整合、自洽性和自然语音修正处理。Zillow 在早期测试中表示，GPT-Realtime-2 在其最难的对抗 benchmark 上，经 prompt 优化后把通话成功率从 69% 提升到 95%，提升 26 个百分点。该数据来自企业早测案例，不能直接等同于所有业务场景表现，但显示实时语音模型开始从转写与回复走向可执行任务。

GPT-Realtime-Translate 支持 70 多种输入语言

GPT-Realtime-Translate 面向实时多语言语音体验。OpenAI 表示，该模型可把 70+ 种输入语言的语音翻译成 13 种输出语言，并在说话人持续发言时保持同步。典型场景包括客户支持、跨境销售、教育、活动、媒体和创作者平台。Deutsche Telekom 正在测试面向多语言客服的语音交互。Vimeo 展示了用 GPT-Realtime-Translate 实时翻译产品教育视频的场景，使全球用户可以在视频播放时听到目标语言版本。BolnaAI 在印度语音 AI 评测中称，GPT-Realtime-Translate 在印地语、泰米尔语和泰卢固语上，比其测试过的其他模型低 12.5% Word Error Rate，同时降低 fallback rate 并提升任务完成率。对开发者而言，关键难点不只是翻译准确率，还包括区域发音、领域词汇、上下文切换和端到端延迟。

GPT-Realtime-Whisper 面向低延迟转写工作流

GPT-Realtime-Whisper 是新的流式语音转文本模型，用于低延迟 speech-to-text。模型会在说话人发言时实时转写，让字幕、会议记录、课堂笔记、直播转写和客服质检在对话进行中产生结果。OpenAI 将它描述为让实时语音进入业务流程的基础组件。企业可以用它支持会议、课堂、广播和活动字幕，也可以生成仍在进行中的会话摘要。对于语音 agent，连续理解用户输入比事后转写更重要。GPT-Realtime-Whisper 的发布意味着 OpenAI 将推理、翻译和转写拆成 3 个可组合模块，开发者可以按场景选择，而不必把所有音频任务都压到同一个模型上。

Realtime API 定价与安全边界

3 款模型已在 Realtime API 上线。GPT-Realtime-2 的价格为音频输入 32 美元 / 100 万 token，缓存输入 0.40 美元 / 100 万 token，音频输出 64 美元 / 100 万 token。GPT-Realtime-Translate 定价为 0.034 美元 / 分钟。GPT-Realtime-Whisper 定价为 0.017 美元 / 分钟。OpenAI 表示，Realtime API 会在会话中使用主动分类器；如果系统检测到违反有害内容政策的对话，相关会话可能被中止。开发者也可以通过 Agents SDK 增加自有安全护栏。OpenAI 还要求开发者向终端用户明确说明其正在与 AI 交互，除非上下文已经显而易见。Realtime API 支持面向欧盟应用的 EU Data Residency，并纳入企业隐私承诺。 GPT-Realtime-2 语音模型的意义在于，OpenAI 正把语音 API 从输入输出通道升级为可执行任务的 agent 基础设施。判断上看，这会推动客服、出行、房地产、教育和跨境沟通应用重新设计交互入口；但实际采用速度仍取决于延迟、成本、合规护栏和开发者对工具调用可靠性的验证。

OpenAI 发布 GPT-Realtime-2 语音模型

GPT-Realtime-2 语音模型强化推理与工具调用

实时语音评测显示推理与指令跟随提升

GPT-Realtime-Translate 支持 70 多种输入语言

GPT-Realtime-Whisper 面向低延迟转写工作流

Realtime API 定价与安全边界

推荐阅读

Anthropic 被曝筹备 Claude Mythos 1,将集成至 Claude Code 与 Security

GPT-5.6 泄露：六月发布在即，iris-alpha 等三款变体曝光

OpenAI Codex 流量分配转向开源终端工具访问

Claude Mythos Preview 漏洞挖掘成果:Project Glasswing 首月发现逾万高危漏洞

评论 ···

GPT-Realtime-2 语音模型强化推理与工具调用

实时语音评测显示推理与指令跟随提升

GPT-Realtime-Translate 支持 70 多种输入语言

GPT-Realtime-Whisper 面向低延迟转写工作流

Realtime API 定价与安全边界

分享

推荐阅读

评论 ···