> 数据图表谁知道1.1.2 国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT2025-9-31.1.2 国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT 图片:继GPT-4o原生图像生成功能掀起使用热潮后,谷歌最新Gemini 2.5 Flash Image迅速登顶多个主流图像排行榜;Meta也宣布将从初创企业Midjourney授权AI图像模型,以跟随OpenAI与谷歌步伐。 3月底,GPT-4o集成多模态原生图像生成功能,效果良好引爆用户使用热情。GPT-4o原生图像生成,意味着图像生成不再依赖于单独的DALL-E 3模型,而是直接集成到了GPT-4o的核心能力中,这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力,具备更好的文本集成、增强的上下文理解、改进的多对象绑定、多样化风格适应等优势。得益于超预期的效果,GPT-4o原生图像功能上线不到72小时,OpenAI CEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。 8月底,谷歌发布了最新的图像生成和编辑模型Gemini 2.5 Flash Image,成为新晋性能冠军,单图片生成成本仅0.039美元。2.5 Flash Image相较2.0 Flash Image,在图像质量、编辑控制和应用场景上有大幅改进。用户不仅可以对人物和宠物进行精准编辑,保持其特征一致,还能实现多图合成、多轮次修改与风格迁移等复杂操作。在大模型竞技场LMArena的文生图与图像编辑两个场景,谷歌的图像模型均拿下全球第一,在图像编辑榜单上模型表现尤为出色,获得1362的高分。图表2:GPT-4o吉卜力风格《星际穿越》图表3:谷歌Gemini 2.5 Flash Image登顶LMArena文生图与图像编辑资料来源:新智元微信公众号,中邮证券研究所请参阅附注免责声明资料来源:第一财经微信公众号,中邮证券研究所6中邮证券综合其他