谁知道1.1.2 国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT

> 数据图表

谁知道1.1.2 国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT

2025-9-3

1.1.2 国内外大厂积极涌入多模态赛道，图片&视频陆续刷新SOAT 视频：阿里字节等大厂刷新视频生成时长、帧率、一致性等能力高度，谷歌将视频模型迈入支持实时交互的通用世界模型。 6月，字节豆包视频生成模型Seedance 1.0 pro超越Veo3、可灵2.0等多模态模型，在文生视频、图生视频两项任务上均排名首位（评测榜单Artificial Analysis）。该模型具备三大特性：无缝多镜头叙事、多动作及随心运镜、稳定运动与真实美感。Seedance支持文字与图片输入，可生成多镜头无缝切换的1080P高品质视频。 8月，阿里通义万相正式开源全新多模态视频生成模型通义万相Wan2.2-S2V，单次生成的视频时长可达分钟级，支持73帧长视频生成，完美匹配口型。7月28日，阿里开源文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B和统一视频生成Wan2.2-IT2V-5B三款模型。其中，文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型。此次开源的Wan2.2-S2V则更加偏向音频驱动，专攻图像+音频，让画面和音频更加契合。 8月，谷歌发布首个支持实时交互的世界模型Genie 3。相较于前两代产品，它不仅能在720p、24 fps的规格下即时生成可交互的三维场景，还把单次交互时长从几十秒延长到数分钟，并首次加入“可提示的世界事件”和“视觉记忆”等关键特性，使得同一房间里的涂鸦、家具位置等细节在玩家多次往返时依然保持一致，真实感提升。图表4：豆包视频生成模型Seedance 1.0 pro在Artificial Analysis测评登顶图表5：谷歌历次视频生成模型对比GameNGenGenie 2VeoGenie 3分辨率领域320p360p720p 至 4K针对特定游戏3D 环境通用720p通用控制方式针对特定游戏限制的键盘/鼠标操作视频级描述导航、可指令触发实时反馈的世界事件资料来源：新智元微信公众号，中邮证券研究所资料来源：腾讯科技微信公众号，中邮证券研究所请参阅附注免责声明交互时长交互延迟几秒实时10-20 秒非实时8 秒不适用数分钟实时7

中邮证券综合其他