Google 正在 Gemini 平台中测试代号 Omni 的视频生成模型。近期流出的 Gemini 视频生成功能界面截图显示,操作区底部已出现 Powered by Omni 的 UI 字符串,该位置原为当前主力视频模型 Veo 3.1 的展示位。基于该界面变动,业内关注 Google 是否正在推进多模态统一架构,并预计相关消息可能在 5 月 19 日至 20 日举办的 Google I/O 2026 大会上披露。
Anthropic 团队发布个人引导对话研究,基于 3.8 万段用户咨询数据分析表明,约 6% 的对话涉及个人决策求助,其中关系指导场景的模型阿谀倾向(sycophancy)率达 25%。针对该问题,团队通过构建合成训练数据与前填充(prefilling)压力测试技术,成功将 Claude Opus 4.7 与 Claude Mythos Preview 在该场景的阿谀率降至 Opus 4.6 的一半,且效果泛化至职业、财务等其他领域。
2026 年 5 月 1 日,OpenAI 发布 Codex 终端 AI Agent 工具 v0.128.0 版本,新增持久化目标工作流、内置权限配置档案与插件市场支持,同时弃用 –full-auto 全自动模式。该版本针对长周期代码任务与多智能体协作进行了底层架构优化。
Artificial Analysis 评测显示,xAI Grok 4.3 在 Intelligence Index 上取得 53 分,超越 Muse Spark 与 Claude Sonnet 4.6,较 Grok 4.20 0309 v2 提升 4 分。该模型同时实现成本大幅下降,输入价格降低约 40%,输出价格降低约 60%。
2026 年 4 月,人工智能标准与创新中心(CAISI)完成对开源大模型 DeepSeek V4 Pro 的第三方独立评测。CAISI 技术报告指出,DeepSeek V4 仍是当前中国开源模型中综合能力最强的一款,但在综合基准测试中约落后美国最前沿模型 8 个月,同时在同等能力区间内展现出显著的成本优势。
阿里 Qwen 团队开源可解释性工具 Qwen-Scope,基于 Qwen3 与 Qwen3.5 系列共 7 个模型训练所得,提供 14 组稀疏自编码器(SAE)权重。该工具通过在隐藏层插入 SAE 并施加稀疏性约束,提取高度解耦的可解释性特征,覆盖稠密模型与混合专家模型两类架构。
OpenAI 已在 Codex 应用中正式上线 Codex Pets 功能。根据 OpenAI Codex 官方设置文档,Pets 是一组可选的动画伙伴(optional animated companions for the app),以悬浮覆盖层(floating overlay)形式存在,既承担陪伴角色,也作为 Codex 任务的实时状态指示器。用户可在 Settings 中前往 Appearance 并选择 Pets,挑选内置宠物或刷新本地自定义宠物,亦可通过 hatch-pet skill 创建专属宠物。
据 TestingCatalog 报道,Anthropic 已对内部代号 Claude Jupiter V1 的新构建启动红队测试。该代号疑似遵循 Anthropic 此前以行星名称作为预发布安全测试标签的惯例,时间点临近 2026 年 5 月 6 日的 Code with Claude 开发者大会。这一观察构成了 Claude Jupiter V1 红队测试 曝光与 Code with Claude 大会的临近信号,但是否对应实际产品发布仍需以 Anthropic 官方公告为准。