“当我们向AI输入一条指令,让它生成一段视频时,实际上,核心诉求是希望AI帮助我们完成一个完整的叙事。要实现这个目标,需要让核心元素上保持统一和可控”,在近日召开的2024年中国国际服务贸易交易会(以下简称“服贸会”)上,生数科技董事长兼CEO唐家渝给出解决方案:视频大模型Vidu的主体参照功能,即能实现对任意主体的一致性生成。为了做到这一点,业界曾尝试“先AI生图、再图生视频”等方法,但主体参照功能不光能减少工作量,还打破了分镜头画面对视频内容的限制。技术的突破让视频大模型商业化有了更大的想象空间。
大语言模型盛行时,生数科技就瞄准了多模态赛道,并在2024年1月上线了文生视频的能力。按照生数科技的计划,视频能力需要更长时长、更高一致性去发展,但Sora的亮相让这家创业公司的计划提前。
4月底发布Vidu,支持一键生成16秒高清视频,6月支持一键生成32秒视频,同时生成音效,并从单个生成的视频中重构出4D视频。7月底,Vidu正式面向全球上线,开放了图生视频、角色一致性功能以及最长8秒的视频生成能力。