Google 正式发布新一代多模态旗舰模型 Gemini Omni。据 Google 官方博客,首发变体 Gemini Omni Flash 已登陆 Gemini app 与 Google Flow,主打自然语言视频编辑与多模态输入生成。该模型将推理能力延伸至创作领域,可结合物理法则与世界知识生成高度连贯的实拍风格视频,并同步提供数字分身与 SynthID 数字水印等工具。

Gemini Omni 模型界面展示多模态视频生成与实时编辑功能

对话式视频编辑与物理仿真理解

Gemini Omni 并非简单的视频生成器,而是强调对话驱动的迭代式编辑体验。用户通过自然语言指令即可针对画面元素、场景逻辑或运镜角度进行修改,指令之间具备连贯记忆能力,确保角色一致性、物理法则合理性与场景前后连贯。官方示例展示了将雕塑材质替换为气泡、将触碰镜面引发的涟漪与手臂镜面化等复杂指令,模型均能稳定执行。

在多轮迭代场景中,Omni 展现出对视觉语言与底层物理逻辑的理解。无论是调整环境色彩、切换拍摄角度,还是为滑板场景添加动态运动特效,模型均能在保留核心画意的同时平滑过渡。这种迭代机制降低了传统视频编辑对专业软件的操作门槛,使视频创意直接转化为可交互的工作流。

Gemini Omni 模型融合世界知识的多模态生成

除了画面层面的连贯性,Gemini Omni 的核心差异点在于将世界知识注入生成过程。官方指出,该模型不仅追求视觉层面的拟真,更强调对重力、动能与流体动力学等自然规律的直觉理解。在生成弹珠滚落连锁反应轨道的视频时,画面表现严格贴合真实物理轨迹。

模型还通过语言、图像与语义的深度对齐,打破单纯的图像匹配逻辑。在演示案例中,Gemini Omni 根据极长提示词生成了涵盖英文字母表、特定物品对应字幕条的快节奏视频,并完整遵循指定帧率与结尾排版要求。结合短提示词即可生成黏土定格风格的高保真蛋白质折叠科普视频的能力表明,该架构正尝试跨越从像素级拟真到语义级表达的鸿沟。

多输入融合与创作者工具组合

Gemini Omni 打破了传统单一文本输入的局限,支持图像、音频、视频与文本的组合参考。官方强调,多种输入源将被统一编码为连贯输出,初期优先支持语音参考,未来将扩展其他音频类型。通过将图像参考、视频参考与背景音乐同步,模型可实现跨模态风格的统一映射。

  • 角色与场景复刻:使用特定角色照片、草图或环境图生成风格一致的视频片段,确保视觉设计高度契合创作者设想。
  • 动态与特效叠加:输入参考图像与视频素材后,模型可自动合成运动轨迹、光影变化或特定视觉特效,避免风格割裂。
  • 个人数字分身:用户可通过 Avatars 功能生成自身的数字替身,实现看着像自己、听着像自己的个性化视频输出。

在生成机制上,数字分身与音频修改等功能目前仍限制在个人语音验证与内部测试范围。团队表示正在评估如何通过更完善的审查机制,将音频编辑能力向安全边界内的用户开放。

责任生成机制与商业落地节奏

伴随多模态创作能力的下放,内容真实性与平台治理成为关键议题。所有通过 Gemini Omni 生成的视频均自动嵌入不可见的 SynthID 数字水印。用户可在 Gemini app、Chrome 内置功能以及 Google Search 中快速验证视频来源与编辑记录。官方同步发布了关于内容透明化与跨平台验证工具的详细指南。

在商业与开发者路径上,首发版本 Gemini Omni Flash 今日起向全球 Google AI Plus、Pro 与 Ultra 订阅用户开放。YouTube Shorts 与 YouTube Create App 用户可免费试用。未来数周内,API 版本将陆续面向开发者与企业客户开放。结合此前图像编辑工具 Nano Banana 的铺路,Google 意图以原生多模态架构打通从推理到创作的全链路。

考虑到基准测试主要基于官方演示与特定提示词环境,在实际复杂剪辑需求与规模化企业场景中的泛化能力,仍需等待独立技术社区与第三方评测机构的长期验证。该模型能否真正重塑短视频与专业影视工作流的底层逻辑,仍有待市场反馈进一步确认。

评论 ···