Vidu是由北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型。以下是对Vidu的详细介绍:
一、发布背景与团队
- Vidu于2024年4月27日在中关村论坛未来人工智能先锋论坛上正式发布,标志着中国在视频大模型领域取得了重大突破。
- 其核心技术团队在贝叶斯机器学习和多模态大模型领域有长期积累和多项原创性成果。
二、核心技术架构
- Vidu采用了团队原创的U-ViT架构,这是全球首个Diffusion与Transformer融合的架构,早于Sora采用的DiT架构提出。
- U-ViT架构结合了Diffusion模型的生成能力和Transformer模型的感知能力,在视频生成等多模态任务中取得了突破性进展。
三、功能特点
- 长时长视频生成:Vidu能够一键生成长达16秒(后续迭代版本支持更长时间,如32秒)的高清视频,分辨率高达1080P。
- 高一致性:在视频生成过程中保持高度一致性,确保场景转换平滑,元素之间协调统一。Vidu1.5及后续版本还发布了“多主体一致性”功能,实现了对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制。
- 高动态性:轻松生成大幅度且逼真流畅的动态效果,画面极具表现力。
- 多镜头生成:支持生成包含远景、近景、中景、特写等多种镜头的视频,有丰富的视角和动态效果。
- 物理世界模拟:能模拟真实世界的物理特性,如光影效果、物体运动等,使视频内容更加逼真。
- 丰富想象力:除了模拟现实场景,Vidu还能创造出真实世界不存在的虚构画面,拓展创意边界。
- 中国元素理解:能理解并生成具有中国特色的元素,如熊猫、龙等,丰富文化表达。
- 快速推理速度:生成速度快,例如生成4秒视频片段只需约30秒(后续版本可能更快)。
- 多模态融合:提供基于图片和视频的描述生成功能,用户可以选择“参考起始帧”、“参考人物角色”等模式。
- 风格多样:支持多种视频风格,包括写实、动漫等,满足不同用户需求。
四、应用场景
- 影视行业:电影制作人可以利用Vidu快速生成创意视频内容,包括动态背景、剧情动画等。
- 广告行业:广告创意人员可以利用Vidu制作高质量的广告视频,提高广告效果。
- 游戏开发:游戏开发者可以使用Vidu生成逼真的动态背景或剧情动画,提升游戏体验。
- 教育机构:教师可以利用Vidu制作教育视频、模拟教学场景或科学可视化内容,帮助学生更好地理解和掌握知识。
- 内容创作:社交媒体影响者、博客作者和独立视频制作者可以利用Vidu生成有吸引力的视频内容,吸引更多观众。
五、发展历程与成就
- 2024年4月27日,Vidu在中关村论坛正式发布。
- 2024年7月30日,Vidu面向全球上线,核心功能包括参考生视频、图生视频等。
- 上线百天用户数即破千万,成为全球增速最快的AI视频模型之一。
- 不断迭代更新,支持更多功能和更长的视频生成时长。
六、用户评价
- 用户普遍认为Vidu操作界面简约、对中文提示词理解准确、视频生成速度快,并且能够帮助创作者充分释放想象力。
- Vidu的“主体参照”功能等实用特性也受到了用户的好评。