OpenAI 首个视频模型将如何影响游戏行业?
阿法兔研究笔记
2024-02-16 13:49
订阅此专栏
收藏此文章
欢迎大家转发到朋友圈~~这样兔儿就更有动力发更多好内容了~

* 转载本文,请附上所有参考文献链接

Sora& MineCraft


*本文 1600 字左右


OpenAI 新推出的首个视频生成模型 Sora,基本刷屏了朋友圈。但是,笔者发现了一个新的现象——那就是,引发了科技圈外很多专业电影人的关注。可见文生视频,对于当今的应用场景是多么的重要。


但更值得阅读的是 OpenAI 发布的关于 Sora 的技术报告《作为世界模拟器的视频生成模型》(Video generation models as world simulators)》。


我写了一篇关于 Sora 技术报告的英文文章,地址为:https://medium.com/@Alphatue/introducing-sora-openais-groundbreaking-tool-transforms-text-into-instant-video-magic-34563debd89f欢迎关注。


回到 Sora 的技术报告,这篇论文由 OpenAI 的多位研究人员共同撰写,有一些值得注意的要点(强烈建议阅读原文,本文文末有链接)


这篇技术报告主要核心是两个方面:
首先,怎样将各种类型的视觉数据转化为统一表示形式,进而实现生成模型的大规模训练;其次,对 Sora 模型能力和局限性,进行了定性评价。


其中提到了一些重点细节:

  • 补片技术:视觉数据的创新转化。先将视频数据压缩到低维度潜在空间,再将它分解成时空补片,从而实现视频到补片的转化。
  • 视频压缩网络OpenAI 开发了能够处理原始视频数据的降维技术,生成在时间和空间上都进行了压缩的潜在表征。Sora 会在这种压缩的潜在空间中接受训练,继而生成新的视频内容。OpenAI 还开发了一个解码器,能够将这些潜在表征还原为像素级的视频 + 图像。
  • 时空补片技术:通过处理压缩后的视频输入,OpenAI 具备提取出一系列时空补片的能力,这些补片在模型中扮演着类似于 Transformer Tokens 的角色。值得一提的是,这套方案同样适用于图像处理,因为从本质上来说,图像可以被视为单帧的视频。采用基于补片的表现形式,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像。在生成新视频内容时,OpenAI 可以通过将这些随机初始化的补片,按照需要的大小排列成网格,来控制最终视频的大小和形式。

  • 视频生成的 Transformer 扩展技术,Sora 是一种扩散模型,能接受带有噪声的图像块(及条件信息如文本提示)作为输入,并被训练,从而能够预测出原始的“清晰”图像块。值得注意的是,Sora 属于扩散型 Transformer。



研究发现,扩散型 Transformer 同样能在视频模型领域高效扩展。


总结一下:这篇技术报告揭开了 Sora 架构的关键,比如说,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频,能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延长视频时间到更改现有视频的背景。


但笔者最关注的重要的其实是这一段:


数字世界模拟。 Sora 还能模拟数字化过程,如视频游戏,Sora 能在控制 Minecraft 游戏角色进行基本操作的同时,高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示,即可激发这些能力的展现。Sora 能够 "模拟数字世界",OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。



原文是这样的:“Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”


这些功能表明,视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。
These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.


OpenAI Sora 与 Minecraft


Sora 在 Minecraft 中控制一名玩家,并同时渲染视频游戏世界。注意,这里的颗粒感是由视频到 GIF 的转换工具引入的,而不是 Sora。


那么,Sora 是如何做到这一点的呢?根据 Nvidia 高级研究员 Jim Fan 提到,Sora 更像是一个 "数据驱动的物理引擎",而不是一个创意引擎。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。


现在,Sora 在视频游戏领域有其通常的局限性。该模型无法准确模拟玻璃破碎等基本交互的物理过程。即使是它能建模的互动,Sora 也经常出现不一致的情况,例如,在渲染一个正在吃汉堡的人时,却无法渲染咬痕。

不过,Sora 似乎可以为更逼真的程序生成游戏铺平道路。这既令人兴奋,又让人害怕。

因为对于我们来说,未来视频伪造的检验难度很可能会更高。



参考资料:

1.Video generation models as world simulators (openai.com)

2.OpenAI’s Sora video-generating model can render video games, too | TechCrunc

【阅读更多】

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

阿法兔研究笔记
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开