2024服贸会|生数科技，求解视频大模型生成主体不一致问题

2024-09-15 20:06:54上传人：LI**!!
Aa 小中大

分享到：

　　“当我们向AI输入一条指令，让它生成一段视频时，实际上，核心诉求是希望AI帮助我们完成一个完整的叙事。要实现这个目标，需要让核心元素上保持统一和可控”，在近日召开的2024年中国国际服务贸易交易会（以下简称“服贸会”）上，生数科技董事长兼CEO唐家渝给出解决方案：视频大模型Vidu的主体参照功能，即能实现对任意主体的一致性生成。为了做到这一点，业界曾尝试“先AI生图、再图生视频”等方法，但主体参照功能不光能减少工作量，还打破了分镜头画面对视频内容的限制。技术的突破让视频大模型商业化有了更大的想象空间。

　　大语言模型盛行时，生数科技就瞄准了多模态赛道，并在2024年1月上线了文生视频的能力。按照生数科技的计划，视频能力需要更长时长、更高一致性去发展，但Sora的亮相让这家创业公司的计划提前。

　　4月底发布Vidu，支持一键生成16秒高清视频，6月支持一键生成32秒视频，同时生成音效，并从单个生成的视频中重构出4D视频。7月底，Vidu正式面向全球上线，开放了图生视频、角色一致性功能以及最长8秒的视频生成能力。