你知道1.1.2 国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT

> 数据图表

你知道1.1.2 国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT

2025-9-3

1.1.2 国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT 图片：继GPT-4o原生图像生成功能掀起使用热潮后，谷歌最新Gemini 2.5 Flash Image迅速登顶多个主流图像排行榜；Meta也宣布将从初创企业Midjourney授权AI图像模型，以跟随OpenAI与谷歌步伐。 3月底，GPT-4o集成多模态原生图像生成功能，效果良好引爆用户使用热情。GPT-4o原生图像生成，意味着图像生成不再依赖于单独的DALL-E 3模型，而是直接集成到了GPT-4o的核心能力中，这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力，具备更好的文本集成、增强的上下文理解、改进的多对象绑定、多样化风格适应等优势。得益于超预期的效果，GPT-4o原生图像功能上线不到72小时，OpenAI CEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。 8月底，谷歌发布了最新的图像生成和编辑模型Gemini 2.5 Flash Image，成为新晋性能冠军，单图片生成成本仅0.039美元。2.5 Flash Image相较2.0 Flash Image，在图像质量、编辑控制和应用场景上有大幅改进。用户不仅可以对人物和宠物进行精准编辑，保持其特征一致，还能实现多图合成、多轮次修改与风格迁移等复杂操作。在大模型竞技场LMArena的文生图与图像编辑两个场景，谷歌的图像模型均拿下全球第一，在图像编辑榜单上模型表现尤为出色，获得1362的高分。图表2：GPT-4o吉卜力风格《星际穿越》图表3：谷歌Gemini 2.5 Flash Image登顶LMArena文生图与图像编辑资料来源：新智元微信公众号，中邮证券研究所请参阅附注免责声明资料来源：第一财经微信公众号，中邮证券研究所6

中邮证券综合其他