Cosmos Possible World's

资讯

最近，Meta的研究者们提出了一种强大的通用视频世界模型DINO-world。这个模型通过在冻结的视觉编码器潜在空间中预训练，并利用动作数据进行后训练，实现了对未来帧的精准预测。DINO-world不仅在密集预测任务中表现出色，在直觉物理测试中也令人眼前一亮。

一些您可能无法访问的结果已被隐去。