Meta推出了一种名为Meta 3D Gen的端到端3D素材生成模型,可以在不到一分钟的时间内根据文本描述创建高质量的3D素材。

Meta 3D Gen结合了Meta的两个现有模型:用于生成 3D 网格素材的AssetGen和用于精细纹理化的 TextureGen。Meta 表示,这种集成可以为沉浸式内容带来更高质量的3D生成。
04200048-2024-07-04T12:00:03.png
3D Gen是如何做到如此栩栩如生的3D素材生成的呢?

3D Gen 采用了两阶段的方法,结合了两个组件,第一阶段使用AssetGen组件,第二阶段使用TextureGen组件。

第一阶段:从文本到图像

这一阶段的目标是,从文本生成有着色和阴影的图像,从四个标准视角,生成这些角度的4张视图。为此,Meta团队使用了一个经过预训练的文生图的扩散模型,该模型在数十亿张带标签的图像上进行训练。

第二阶段:从图像到3D

根据第一阶段生成的 3D 素材和最初的文本提示词,对第一阶段的素材进行纹理细化或者重新着色,来生成更高质量的纹理和 PBR(physically based rendering,基于物理的渲染)图。这一阶段使用了Meta团队的从文本到纹理( text-to-texture)的生成模型 3D TextureGen。

通过构建 AssetGen 和 TextureGen两个组件,3D Gen模型将3D物体的三种高度互补的表现方式结合起来:视觉空间(图像)、体积空间(3D 形状和外观)以及 UV 空间(纹理与质地)。

与许多最先进的解决方案不同,AssetGen 和 TextureGen 都是前馈生成器,因此在部署后既快速又高效。

下图显示了 3D Gen 从第一阶段到第二阶段处理后的效果对比。第二阶段后通常具有更高的视觉美学,看起来更逼真,并且在高频颜色区有更多细节。
04201257-2024-07-04T12:13:04.png
04201356-2024-07-04T12:14:17.png
Meta团队将3D Gen与其他文生3D模型同行们(Meshy v3、Tripo等)进行了比较。Meta表示,竞争对手们在简单物体上做得很好,但更复杂的物体组合和场景就有挑战了,而且展现高频区细节与暴露视觉伪影之间总是难以平衡。

3D Gen还可以在同一形状的物体上,进行不同的着色。在第一阶段生成的 3D 网格,然后传递到第二阶段,只要使用不同的提示词,就能创建具有相同形状但外观不同的新素材。除了实现语义编辑并执行全局和局部修改之外,3D Gen 还可以成功地模仿不同的材料和艺术风格。
04201458-2024-07-04T12:15:25.png