OpenAI 首个视频模型将如何影响游戏行业？

阿法兔研究笔记

2024-02-16 13:49

来源链接

订阅此专栏

收藏此文章

欢迎大家转发到朋友圈~~这样兔儿就更有动力发更多好内容了~

* 转载本文，请附上所有参考文献链接

Sora& MineCraft

*本文 1600 字左右

OpenAI 新推出的首个视频生成模型 Sora，基本刷屏了朋友圈。但是，笔者发现了一个新的现象——那就是，引发了科技圈外很多专业电影人的关注。可见文生视频，对于当今的应用场景是多么的重要。

但更值得阅读的是 OpenAI 发布的关于 Sora 的技术报告《作为世界模拟器的视频生成模型》（Video generation models as world simulators）》。

我写了一篇关于 Sora 技术报告的英文文章，地址为：https://medium.com/@Alphatue/introducing-sora-openais-groundbreaking-tool-transforms-text-into-instant-video-magic-34563debd89f欢迎关注。

回到 Sora 的技术报告，这篇论文由 OpenAI 的多位研究人员共同撰写，有一些值得注意的要点（强烈建议阅读原文，本文文末有链接）：

这篇技术报告主要核心是两个方面：

首先，怎样将各种类型的视觉数据转化为统一表示形式，进而实现生成模型的大规模训练；其次，对 Sora 模型能力和局限性，进行了定性评价。

其中提到了一些重点细节：

补片技术：视觉数据的创新转化。先将视频数据压缩到低维度潜在空间，再将它分解成时空补片，从而实现视频到补片的转化。
视频压缩网络：OpenAI 开发了能够处理原始视频数据的降维技术，生成在时间和空间上都进行了压缩的潜在表征。Sora 会在这种压缩的潜在空间中接受训练，继而生成新的视频内容。OpenAI 还开发了一个解码器，能够将这些潜在表征还原为像素级的视频 + 图像。
时空补片技术：通过处理压缩后的视频输入，OpenAI 具备提取出一系列时空补片的能力，这些补片在模型中扮演着类似于 Transformer Tokens 的角色。值得一提的是，这套方案同样适用于图像处理，因为从本质上来说，图像可以被视为单帧的视频。采用基于补片的表现形式，Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像。在生成新视频内容时，OpenAI 可以通过将这些随机初始化的补片，按照需要的大小排列成网格，来控制最终视频的大小和形式。
视频生成的 Transformer 扩展技术，Sora 是一种扩散模型，能接受带有噪声的图像块（及条件信息如文本提示）作为输入，并被训练，从而能够预测出原始的“清晰”图像块。值得注意的是，Sora 属于扩散型 Transformer。

研究发现，扩散型 Transformer 同样能在视频模型领域高效扩展。

总结一下：这篇技术报告揭开了 Sora 架构的关键，比如说，Sora 可以生成任意分辨率和长宽比（最高 1080p）的视频，能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延长视频时间到更改现有视频的背景。

但笔者最关注的重要的其实是这一段：

数字世界模拟。 Sora 还能模拟数字化过程，如视频游戏，Sora 能在控制 Minecraft 游戏角色进行基本操作的同时，高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示，即可激发这些能力的展现。Sora 能够 "模拟数字世界"，OpenAI 的合著者如是说。在一次实验中，OpenAI 将 Sora 放到 Minecraft 上，让它在控制玩家的同时渲染世界及其动态（包括物理）。

原文是这样的：“Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”

这些功能表明，视频模型的持续扩展是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。

These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.

OpenAI Sora 与 Minecraft