> 数据图表

想关注一下1.1.2 国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT

2025-9-3
想关注一下1.1.2 国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT
1.1.2 国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT 视频:阿里字节等大厂刷新视频生成时长、帧率、一致性等能力高度,谷歌将视频模型迈入支持实时交互的通用世界模型。 6月,字节豆包视频生成模型Seedance 1.0 pro超越Veo3、可灵2.0等多模态模型,在文生视频、图生视频两项任务上均排名首位(评测榜单Artificial Analysis)。该模型具备三大特性:无缝多镜头叙事、多动作及随心运镜、稳定运动与真实美感。Seedance支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频。 8月,阿里通义万相正式开源全新多模态视频生成模型通义万相Wan2.2-S2V,单次生成的视频时长可达分钟级,支持73帧长视频生成,完美匹配口型。7月28日,阿里开源文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B和统一视频生成Wan2.2-IT2V-5B三款模型。其中,文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型。此次开源的Wan2.2-S2V则更加偏向音频驱动,专攻图像+音频,让画面和音频更加契合。 8月,谷歌发布首个支持实时交互的世界模型Genie 3。相较于前两代产品,它不仅能在720p、24 fps的规格下即时生成可交互的三维场景,还把单次交互时长从几十秒延长到数分钟,并首次加入“可提示的世界事件”和“视觉记忆”等关键特性,使得同一房间里的涂鸦、家具位置等细节在玩家多次往返时依然保持一致,真实感提升。图表4:豆包视频生成模型Seedance 1.0 pro在Artificial Analysis测评登顶图表5:谷歌历次视频生成模型对比GameNGenGenie 2VeoGenie 3分辨率领域320p360p720p 至 4K针对特定游戏3D 环境通用720p通用控制方式针对特定游戏 限制的键盘/鼠标操作视频级描述导航、可指令触发实时反馈的世界事件资料来源:新智元微信公众号,中邮证券研究所资料来源:腾讯科技微信公众号,中邮证券研究所请参阅附注免责声明交互时长交互延迟几秒实时10-20 秒非实时8 秒不适用数分钟实时7