李飞飞「世界实验室」重磅推出 AI“造物主”
斯坦福大学的李飞飞教授宣布,她带领的World Labs团队推出一个能从单张图片生成 3D 世界的 AI 系统!不是简单的 3D 建模,而是真正可以交互的 3D 物理场景!
3D场景在浏览器里就能实时渲染,还能用WASD键和鼠标自由控制视角,就像玩游戏一样!简直太酷炫了! 用户甚至可以体验 3D 相机效果,例如模拟浅景深,即只有与摄像机保持一定距离的物体才能对焦,或“希区柯克式变焦”(dolly zoom)
World Labs 要解决啥问题?
现在的生成式 AI 模型,最大的问题就是缺乏控制力和一致性。World Labs 的目标就是解决这个问题!他们的 AI 系统可以根据输入的图片,先估算 3D 几何形状,再填充场景中看不到的部分,还能根据 3D 几何信息创造新的内容,让场景更完整! 这将改变制作电影、游戏、模拟器和其他物理世界数字表现形式的方式
不是预测像素而是预测3D场景
大多数生成模型预测像素, 而预测三维场景则有很多好处:
持久现实:世界一旦生成,就会一直存在。即使你把视线移开,再回来时,场景也不会改不会像某些 AI 模型那样,换个角度就“变脸”
实时控制:生成场景后,您可以实时在场景中移动。你可以停留在花朵的细节上,或者从角落里偷看,看看里面有什么
正确的几何形状:生成的世界遵循 3D 几何的基本物理规则。它们具有实体感和深度感,与某些人工智能生成的视频的梦幻性质形成鲜明对比
可视化方式:World Labs 的系统生成 3D 场景方式是一个称为深度图 (depth map)的东西,其中每个像素的颜色代表其到相机的距离
交互性:可以修改场景的光照、外观、几何形状
还可以制作特效,使场景被动地动画化
走进世界名画
世界生成可以让你以全新的方式体验标志性的艺术作品。比如 梵高(van Gogh)、霍珀(Hopper)、修拉(Seurat)和康定斯基(Kandinsky),可以wordlab网页体验
与其他 AI 工具无缝衔接!
World Labs 的 3D 场景生成技术,可以和其他 AI 工具配合使用,让创作者们的工作流程更加高效!
例如,可以通过先使用文本生成图像模型生成一幅图像来从文本创建世界。不同的模型有各自的风格,worldlab技术可以继承这些风格
这里用四个流行的text2image模型 FLUX, Midjourney, Ideogram, DALL-E,采用相同的提示可以生成同一场景的四个变体
目前wordlab已经让一些创作者提前了解了这种技术,开始尝试 3D 原生生成 AI 工作流程带来的可能性
数字艺术家 @8bit_e 就用 World Labs 的技术,轻松地将角色放置在场景中,并进行精确的相机运动控制,弥补了他创作流程中的一个空白,极大地提升了创作效率!
未来展望
英伟达JIM FAN 评价:
生成式 AI 正在创造越来越高维度的人类体验快照
Stable Diffusion 是一个二维快照
OpenAI Sora 是一个二维加时间维度的快照
现在,World Labs 是一个三维、完全沉浸式的快照
总体来看World Labs 的 3D 世界生成技术,绝对是 AI 领域的一项重大突破!它将为游戏、电影、艺术等领域带来无限可能!
李飞飞教授表示,这只是 3D 生成式 AI 的一个开始!他们正在努力将这项技术尽快送到用户手中!