斯坦福大学的李飞飞教授宣布,她带领的World Labs团队推出一个能从单张图片生成 3D 世界的 AI 系统!不是简单的 3D 建模,而是真正可以交互的 3D 物理场景!

3D场景在浏览器里就能实时渲染,还能用WASD键和鼠标自由控制视角,就像玩游戏一样!简直太酷炫了! 用户甚至可以体验 3D 相机效果,例如模拟浅景深,即只有与摄像机保持一定距离的物体才能对焦,或“希区柯克式变焦”(dolly zoom)
04180558-640.gif
04180636-2024-12-04T10:06:31.png

World Labs 要解决啥问题?

现在的生成式 AI 模型,最大的问题就是缺乏控制力和一致性。World Labs 的目标就是解决这个问题!他们的 AI 系统可以根据输入的图片,先估算 3D 几何形状,再填充场景中看不到的部分,还能根据 3D 几何信息创造新的内容,让场景更完整! 这将改变制作电影、游戏、模拟器和其他物理世界数字表现形式的方式

不是预测像素而是预测3D场景

大多数生成模型预测像素, 而预测三维场景则有很多好处:
持久现实:世界一旦生成,就会一直存在。即使你把视线移开,再回来时,场景也不会改不会像某些 AI 模型那样,换个角度就“变脸”
实时控制:生成场景后,您可以实时在场景中移动。你可以停留在花朵的细节上,或者从角落里偷看,看看里面有什么
正确的几何形状:生成的世界遵循 3D 几何的基本物理规则。它们具有实体感和深度感,与某些人工智能生成的视频的梦幻性质形成鲜明对比
可视化方式:World Labs 的系统生成 3D 场景方式是一个称为深度图 (depth map)的东西,其中每个像素的颜色代表其到相机的距离
交互性:可以修改场景的光照、外观、几何形状

还可以制作特效,使场景被动地动画化

走进世界名画

世界生成可以让你以全新的方式体验标志性的艺术作品。比如 梵高(van Gogh)、霍珀(Hopper)、修拉(Seurat)和康定斯基(Kandinsky),可以wordlab网页体验

与其他 AI 工具无缝衔接!

World Labs 的 3D 场景生成技术,可以和其他 AI 工具配合使用,让创作者们的工作流程更加高效!

例如,可以通过先使用文本生成图像模型生成一幅图像来从文本创建世界。不同的模型有各自的风格,worldlab技术可以继承这些风格

这里用四个流行的text2image模型 FLUX, Midjourney, Ideogram, DALL-E,采用相同的提示可以生成同一场景的四个变体

目前wordlab已经让一些创作者提前了解了这种技术,开始尝试 3D 原生生成 AI 工作流程带来的可能性

数字艺术家 @8bit_e 就用 World Labs 的技术,轻松地将角色放置在场景中,并进行精确的相机运动控制,弥补了他创作流程中的一个空白,极大地提升了创作效率!

未来展望

英伟达JIM FAN 评价:

生成式 AI 正在创造越来越高维度的人类体验快照
Stable Diffusion 是一个二维快照
OpenAI Sora 是一个二维加时间维度的快照
现在,World Labs 是一个三维、完全沉浸式的快照

总体来看World Labs 的 3D 世界生成技术,绝对是 AI 领域的一项重大突破!它将为游戏、电影、艺术等领域带来无限可能!

李飞飞教授表示,这只是 3D 生成式 AI 的一个开始!他们正在努力将这项技术尽快送到用户手中!

地址:http://worldlabs.ai/