欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力

9月11日，生数科技举办媒体开放日活动，发布“主体参照”（Subject Consistency）功能，该功能能够实现对任意主体的一致性生成，让视频生成更加稳定、可控。据了解，目前该功能面向用户免费开放。

此前的4月底，由生数科技和清华大学联合研发的原创视频大模型Vidu面向全球发布，7月底正式上线，全面开放使用。

生数科技CEO唐家渝在开放日上对包括《每日经济新闻》记者在内的媒体记者表示，“主体参照”功能意在解决视频模型存在的“不可控”的局限性。当前，视频模型存在连续性弱、输出随机的局限性。连续性弱是指无法保证每次生成视频时主体、场景、风格等的一致性，涉及复杂交互的情况下尤为明显。输出随机是指输出结果随机性比较大，需要不断生成尝试，对于运镜、光效等细节还无法实现精细准确的控制。

欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力-第1张-新闻-51硕博论文

生数科技CEO唐家渝图片来源：每经记者李少婷摄

此前，业界尝试采用“先AI生图、再图生视频”的方法，通过AI绘图工具生成分镜头画面，先在图片层面保持主体一致，然后再将画面转化为视频片段并进行剪辑合成。

“主体参照”功能下，用户上传任意主体的一张图片，即可锁定该主体的形象，通过描述词任意切换场景，输出主体一致的视频。该功能不局限于单一对象，面向“任意主体”，包括人物、动物、商品，还有动漫角色、虚构主体等。

免责声明：本文章由会员“极目新闻”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

欲解视频生成模型一致性难题 中国版“Sora”Vidu发布“一张图片锁定主体”能力

相关推荐

欲解视频生成模型一致性难题中国版“Sora”Vidu发布“一张图片锁定主体”能力