每日经济新闻 2025-05-14 23:25:13
每经杭州5月14日电(记者叶晓丹)5月14日晚,《每日经济新闻》记者获悉,阿里巴巴正式开源通义万相Wan2.1-VACE,这是业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。本次共开源1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行。
据阿里云方面介绍,Wan2.1-VACE基于通义万相文生视频模型研发,同时创新性提出了全新的视频条件单元(VCU),它在输入形态上统一了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务;同时,Wan2.1-VACE还进一步解决了多模态输入的token(词元)序列化难题,将VCU输入的帧序列进行概念解耦,分开重构成可变序列和不可变序列后进行编码。
据了解,自今年2月以来,通义万相已先后开源文生视频模型、图生视频模型和首尾帧生视频模型,目前在开源社区的下载量已超330万。
封面图片来源:视觉中国-VCG211478193393
如需转载请与《每日经济新闻》报社联系。
未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。
读者热线:4008890008
特别提醒:如果我们使用了您的图片,请作者与本站联系索取稿酬。如您不希望作品出现在本站,可联系我们要求撤下您的作品。
欢迎关注每日经济新闻APP