在线购买欧洲杯“谷歌版Sora”被嘲画质好糊但在世界模拟器上又前
简介
看得网友忍不住吐槽,不说和Sora的效果比了,就算和别的文生视频或者文生图相比,都是“2K”和“480p”的差距。 Genie团队负责人Tim Rocktäschel开麦,称认为这(Genie)是迈向AGI通用世界模型的充满希望的一步。 Genie团队用Imagen2生成图像,然后把图像喂给看得网友忍不住吐槽,不说和Sora的效果比了,就算和别的文生视频或者文生图相比,都是“2K”和“480p”的差距。
Genie团队负责人Tim Rocktäschel开麦,称认为这(Genie)是迈向AGI通用世界模型的充满希望的一步。
Genie团队用Imagen2生成图像,然后把图像喂给Genie。Genie把图像作为起始帧,生成以下效果。
团队表示,Genie不仅仅能用AI绘画来作为驱动的起始帧,随便拿张人类大作,也可以达到同样的效果。
有小伙伴已经在畅想,日后能用Genie制造“一个让每个人都感到满足和满足、永无止境的生成世界”。
论文显示,Genie是一个11B参数的交互式环境生成模型,能够从互联网视频中无监督地学习并生成可交互的虚拟世界。
由于此类动作标签在互联网视频中可用的很少,同时获取动作注释的成本超级高,因此,团队以完全无监督的方式学习潜在动作。
三组件之中的第三样,潜在动态模型,作用是给定潜在动作和过去帧的token,用来预测视频的下一帧。
这些动作是通过一个因果动作模型学习得到的,这个模型允许用户通过指定潜在动作来控制视频的生成过程。
此前研究表明,游戏环境可以成为开发AI Agent的有效测试平台,但实际情况中常常受到可用游戏数量的限制。
多说一句,论文中进行了一个概念证明,即“Genie学到的潜在动作可以转移到真实的人类环境中”,不过,这都是未来可能发生的事情了。
也就是说,虽然Genie的训练数据多是2D的游戏视频or机器人视频,但不需要任何额外的领域知识,Genie就可以在多个领域中应用。
结果发现,具有相同潜在动作序列的轨迹通常会表现出相似的行为,也就是说,Genie能够学习一致的动作空间。
Yuge(Jimmy)Shi是华人,本科毕业于澳大利亚国立大学,2023年在牛津大学拿下机器学习博士学位。
研究团队中,有位不列颠哥伦比亚大学的计算机科学副教授,他同时是谷歌DeeoMind的高级研究顾问。
上一篇:支持全栈编程语言、随取随用、一键部署谷歌推出浏览器 下一篇:DeepMind新款AI Agent会玩山羊模拟器