OpenAI 发布 GPT-Realtime-2 语音模型
OpenAI 在 Realtime API 发布 GPT-Realtime-2 语音模型、GPT-Realtime-Translate 与 GPT-Realtime-Whisper。3 款模型分别覆盖实时语音推理、实时语音翻译与流式语音转写,面向可对话、可调用工具、可跨语言工作的语音应用。GPT-Realtime-2 的上下文窗口从 32K 扩展到 128K,并提供从 minimal 到 xhigh 的可调推理强度。

GPT-Realtime-2 语音模型强化推理与工具调用
根据 OpenAI 官方发布说明,GPT-Realtime-2 是其首个具备 GPT-5 级推理能力的实时语音模型。OpenAI 将它定位为面向生产级语音 agent 的模型,而不只是用于快速问答的语音接口。模型可以在对话继续进行时调用工具,处理用户打断与修正,并用更贴合场景的语气回应。开发者还可以启用短前置语,例如 let me check that,用来提示用户系统正在处理请求。GPT-Realtime-2 支持并行工具调用,能够用 checking your calendar 等短句把工具动作显性化。上下文窗口从 32K 提升至 128K,有助于更长会话和复杂任务流。推理强度提供 minimal、low、medium、high、xhigh 5 档,默认值为 low。这让开发者可以在低延迟与复杂推理之间取舍。
实时语音评测显示推理与指令跟随提升
OpenAI 给出的音频评测显示,GPT-Realtime-2 high 在 Big Bench Audio 的音频智能任务上达到 96.6% 准确率,高于 GPT-Realtime-1.5 的 81.4%。按 OpenAI 的表述,这相当于提升 15.2%。在 Audio MultiChallenge 指令跟随测试中,GPT-Realtime-2 xhigh 的平均通过率为 48.5%,高于 GPT-Realtime-1.5 的 34.7%,提升 13.8%。Big Bench Audio 评估支持音频输入模型的复杂推理能力。Audio MultiChallenge 关注多轮语音对话中的指令跟随、上下文整合、自洽性和自然语音修正处理。Zillow 在早期测试中表示,GPT-Realtime-2 在其最难的对抗 benchmark 上,经 prompt 优化后把通话成功率从 69% 提升到 95%,提升 26 个百分点。该数据来自企业早测案例,不能直接等同于所有业务场景表现,但显示实时语音模型开始从转写与回复走向可执行任务。
GPT-Realtime-Translate 支持 70 多种输入语言
GPT-Realtime-Translate 面向实时多语言语音体验。OpenAI 表示,该模型可把 70+ 种输入语言的语音翻译成 13 种输出语言,并在说话人持续发言时保持同步。典型场景包括客户支持、跨境销售、教育、活动、媒体和创作者平台。Deutsche Telekom 正在测试面向多语言客服的语音交互。Vimeo 展示了用 GPT-Realtime-Translate 实时翻译产品教育视频的场景,使全球用户可以在视频播放时听到目标语言版本。BolnaAI 在印度语音 AI 评测中称,GPT-Realtime-Translate 在印地语、泰米尔语和泰卢固语上,比其测试过的其他模型低 12.5% Word Error Rate,同时降低 fallback rate 并提升任务完成率。对开发者而言,关键难点不只是翻译准确率,还包括区域发音、领域词汇、上下文切换和端到端延迟。
GPT-Realtime-Whisper 面向低延迟转写工作流
GPT-Realtime-Whisper 是新的流式语音转文本模型,用于低延迟 speech-to-text。模型会在说话人发言时实时转写,让字幕、会议记录、课堂笔记、直播转写和客服质检在对话进行中产生结果。OpenAI 将它描述为让实时语音进入业务流程的基础组件。企业可以用它支持会议、课堂、广播和活动字幕,也可以生成仍在进行中的会话摘要。对于语音 agent,连续理解用户输入比事后转写更重要。GPT-Realtime-Whisper 的发布意味着 OpenAI 将推理、翻译和转写拆成 3 个可组合模块,开发者可以按场景选择,而不必把所有音频任务都压到同一个模型上。
Realtime API 定价与安全边界
3 款模型已在 Realtime API 上线。GPT-Realtime-2 的价格为音频输入 32 美元 / 100 万 token,缓存输入 0.40 美元 / 100 万 token,音频输出 64 美元 / 100 万 token。GPT-Realtime-Translate 定价为 0.034 美元 / 分钟。GPT-Realtime-Whisper 定价为 0.017 美元 / 分钟。OpenAI 表示,Realtime API 会在会话中使用主动分类器;如果系统检测到违反有害内容政策的对话,相关会话可能被中止。开发者也可以通过 Agents SDK 增加自有安全护栏。OpenAI 还要求开发者向终端用户明确说明其正在与 AI 交互,除非上下文已经显而易见。Realtime API 支持面向欧盟应用的 EU Data Residency,并纳入企业隐私承诺。 GPT-Realtime-2 语音模型的意义在于,OpenAI 正把语音 API 从输入输出通道升级为可执行任务的 agent 基础设施。判断上看,这会推动客服、出行、房地产、教育和跨境沟通应用重新设计交互入口;但实际采用速度仍取决于延迟、成本、合规护栏和开发者对工具调用可靠性的验证。
评论 ···