资讯

最近,Meta的研究者们提出了一种强大的通用视频世界模型DINO-world。这个模型通过在冻结的视觉编码器潜在空间中预训练,并利用动作数据进行后训练,实现了对未来帧的精准预测。DINO-world不仅在密集预测任务中表现出色,在直觉物理测试中也令人眼前一亮。