pandora:根据自然语言指令生成动作和视频的通用世界模型-凯发游戏

划重点:
🔍 是一个通向通用世界模型（gwm）的重要步骤，通过生成视频来模拟任何领域的世界状态。
🔍 pandora 可以接受自然语言输入作为动作，并在视频生成过程中实时控制视频内容，与之前只能在视频开始时输入文本提示的文本到视频模型有着关键的不同。
🔍 pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频，让用户能够自主控制未来的发展。

站长之家（chinaz.com）5月24日消息:pandora 是一个研究通用世界模型（gwm）的重要进展，其目标是通过生成视频来模拟任何领域的世界状态，并提供自然语言的实时控制。

与之前的文本到视频模型不同，pandora 可以接受自由文本的动作输入，实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺，并增强了强大的推理和规划能力。比如生成视频的过程中，用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”，pandora 会即时地根据这些指令调整视频内容，实现动态控制。

产品入口网址：

pandora 还能够生成基于相同初始状态但不同动作的多个替代未来的视频。用户可以通过输入不同的动作来控制视频的发展方向，实现对未来的自主控制。这种能力使得世界模型不再只是模拟替代未来，而是能够真正实现对未来的控制。

pandora 能够在各种通用领域生成视频，包括室内 / 室外、自然 / 城市、人类 / 机器、2d/3d 等场景。通过使用高质量数据进行指导和训练，模型可以学习有效的动作控制，并在不同领域中实现迁移学习。例如，pandora 在训练时只接触过2d 游戏 coinrun，但可以无缝地将学到的动作应用于其他2d 游戏。

pandora 将视频模型与自主生成的 pandora 背骨结合在一起，可以生成更长的视频，甚至可以达到无限长度。通过这种结合，pandora 能够生成长达8秒的视频，即使训练时的视频长度最多只有5秒。

然而，作为通向 gwm 的初步步骤，pandora 仍然存在一些限制。它可能无法生成一致的视频，模拟复杂场景，理解常识和物理定律，以及遵循指令 / 动作。

pandora 是通向通用世界模型的重要一步，它通过自然语言动作和视频状态的模拟生成，实现了对未来的自主控制，为交互式内容生成、强大的推理和规划能力提供了支持。

马斯克：spacex和星链都没用ai ai在这些方面表现糟糕

2024-05-081.8万阅读

2024-04-293792阅读

2024-05-095238阅读

2024-05-131.8万阅读

2024-05-084777阅读

2024-04-292.7万阅读

2024-05-152.7万阅读

2024-05-093.0万阅读

2024-05-096539阅读

马斯克：spacex不使用ai 在太空探索领域几乎没用

2024-05-072.9万阅读

2024-05-162.0万阅读

2024-05-272.0万阅读

ai可以生成手语手势视频了！signllm通过文字描述即可生成手语视频

2024-05-287615阅读

ai视频编辑方法revideo:可局部修改视频内容和运动轨迹

2024-05-241.6万阅读

2024-05-075683阅读

2024-05-088658阅读

知名爆料人古尔曼锐评苹果：ipad与mac区分错误、ai战略需重大改变

2024-05-201.4万阅读

两小时“吼出”121次ai，谷歌背后埋伏着open ai的幽灵

2024-05-159790阅读

2024-05-082.6万阅读

凯发游戏-凯发ag旗舰厅

it业界

热点视频

站长资讯

好物榜

更多分类

更多主题