上个月 OpenAI 在发布 Sora 2 的同时将其作为独立应用发布,产品一经上线便登顶苹果应用商店榜首的现象级产品。本篇内容是对 Sora 2 的三位核心负责人的访谈:研发负责人 Bill Peebles、产品负责人 Rohan Sahai 以及工程与产品负责人 Thomas Dimson,Dimson 还参与过 Instagram 产品的搭建。
Sora 的病毒式传播离不开它独有的 Cameos 功能(即用户可将自身形象融入 AI 生成视频),这使得 Sora 并不是单纯的视频生成产品,而更像是一个社交工具:
• Sora 产品设计始终将人类创造力置于核心位置,而非鼓励被动的内容消费;
• Sora 的各种玩法创新以及信息流推荐算法将更多围绕社交关系链展开,团队认为这是 Sora 和其他短视频工具最不一样的地方;
• 把 Sora 作为独立产品推出一方面是看到了之前一系列图片生成产品的爆火和病毒式传播,另一方面则是考虑到 ChatGPT 作为生产力工具的生态定位和用户体验;
• 视频模型长期的目标是 “世界模拟器”(world simulator),它的下一个突破点是可以生成数小时长度的视频内容,并且可以基于“模拟”能力在科研领域创造价值;
• LLMs 和视频生成模型本质上都是在学习“世界模型”,只不过路径和方式并不相同。
01.
Sora 其实是一个社交产品
Jacob Effron: 你们有预料到 Sora 的爆火吗?
Bill Peebles: 我其实完全没想到它能在应用商店霸榜一个月,这个成绩远超预期。不过,我们的研发团队表现出色,产品本身也具备病毒式传播特质,这是成功的基础。
Jacob Effron:把 Sora 作为独立应用的想法是什么时候产生的?
Bill Peebles:项目初期并没有明确规划,开始想要将 Sora 独立出来是因为之前推出的 ImageGen 效果很超预期,这种体验让我们决定把 Sora 独立。
虽然将不同产品界面合并这件事并不难,但目前 ChatGPT 还是保留了它的今天的“单人特点”,因为 ChatGPT 这种模式下用户在 ChatGPT 里的创作和交互不一定希望被公开,我们也不希望让用户因此产生顾虑。
Jacob Effron:Sora 从最初的想法到现在的成熟,经历了怎样的演变?你们是如何逐步开发出这些 prototype 的?
Thomas Dimson:我一直在思考“社交”在 AI 领域的意义,也做过很多原型探索。
ImageGen 发布前,我们曾在 ChatGPT 内部测试 social media stream 功能,想探索社交与 ChatGPT 的结合点。测试中出现了很多 Reddit threads 类似的交互形态,比如有人上传图片后,其他人会陆续提出修改需求,让图片不断演变。这种动态变化让我意识到这是 GenAI 独有的创作方式,因为人工很难完成这类即兴的创意生成。
在这个过程中伴随着 Sora 模型不断完善,我们觉得可以基于这类交互把 Spra 推向大规模应用,因为图像生成虽然效果同样很惊艳,但在部分场景下,尤其是社交场景中,视频的表现力要更震撼。
Bill Peebles:我们其实没有预料到 Cameos 会成为核心亮点。直到有一天,我们团队的工程师 Bobo 想玩一玩,便在 Slack 发起请求,收集成员含“嘿,Sora,我是 XX。嘿,Sora,让我活过来”话术的视频并上传后台,并进行人物标记功能。这一现象起初不显眼,直至几天后大家发现动态全是 Cameos 内容,我们才意识到该功能的强大吸引力。
Cameos 是 Sora 2 推出的“真人出镜”功能,它允许用户通过录制验证视频,将自己的面部、体型、声音特征提取并融合到 AI 生成的任意场景中,实现“真人演员+虚拟场景“的混合视频生成。
Jacob Effron:开发 consumer 应用最有趣的点在于用户总会用我们意想不到的方式去使用。Sora 有没有遇到过这样的情况?
Thomas Dimson:当然。举个例子,有个简单的小视频被翻拍了很多次 —— 内容是一个孩子拆圣诞礼物,结果拆出的是 Bill Peebles 的动作人偶,而且这个人偶和 Bill Peebles 本人几乎一模一样。仅凭几个数字,模型就能呈现出这个人偶,把观看者带入一个完全陌生的场景。
我每天刷动态时,总能看到类似的作品,有的是黏土动画形式,有的是电子游戏主题,虽然表现形式不同,但核心技术是一样的。
但我觉得现在大家的创意还远没把 Sora 的潜力挖透。比如是不是可以把 LucasArts adventure(注:1986年发行的一个经典冒险游戏)里的换成 你的信息或者别人的 Camoes,肯定会很有趣。所以未来更多更新的创意肯定会源源不断。
Rohan Sahai:Storyboard 功能可以生成长达 25 秒的片段,这才是质量标准真正实现飞跃的时刻。这个模型一次生成就能产出这么连贯的故事,哪怕在 Sora 1 上试上百次,也很难达到这种效果。这在 Sora 2 里算得上革命性突破,也充分体现了智能水平的提升。
Storyboard 是 Sora 2 推出的“将自然语言转化成视频”功能,它能自动将创作者的叙事内容或脚本转化为连贯的视觉场景,并且每个场景都具备逼真的景深、风格与基调。
Jacob Effron: Sora 刚发布时,Stratechery 的 Ben Thompson 写过一篇文章表示质疑 ,认为基于其他现有产品来看大多数用户只想消费内容、不愿创作,但后来他改变了态度。怎么看待这一变化?你觉得 Sora 创作热度能持续下去吗?
Rohan Sahai:我们从一开始设计这款应用时,就把创作功能当作核心,这是我们最初的核心假设。
现有的社交媒体平台确实不错,但用户在其中获得的乐趣通常来自内容消费而不是创作,连续不断的刷屏对用户来说也并不好事,所以我们其实很想解决今天算法推荐带来的问题。
最关键的突破还是 Cameos 功能。Cameos 真正给生成内容赋予了个性化温度,让内容有了人性化特质,这是单纯的文本转视频或简单模型提示做不到的。