自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到:
- 仅凭一张静态照片,就能 “脑补” 出整个 3D 空间,生成一段围绕主体的 360° 环绕视频?
- 现有的视频能否进行重新运镜,实现推、拉、摇、移等复杂的电影级镜头调度?
这些需求在影视制作、游戏开发、虚拟现实等领域至关重要,但实现起来却困难重重。现有的技术路线往往顾此失彼:要么通过微调(Fine-tuning)模型来实现,但所需算力昂贵,且易损害模型内在的 “世界知识”,导致生成质量下降;要么采用“扭曲 - 重绘”(Warp-and-Repaint)的策略,但引导信号带有的噪点和伪影,往往会误导模型,造成几何结构错乱和细节失真。
有没有第三条路?一条既能实现精准控制,又不牺牲生成质量,还无需重新训练的优雅路径?
西湖大学 AGI 实验室的研究团队给出了他们的答案。他们提出了名为WorldForge的全新框架,以一种 “即插即用” 的推理时引导方式,在不改动任何权重的前提下,为视频扩散模型装上了一个 “导演大脑”,成功实现了单图到 360° 世界生成和电影级视频轨迹重运镜。
