谷歌发布3D建模生成大模型「CAT3D」:开局一张图,1分钟构建精美3D建模成像
AI奇点网5月24日报道丨近日,谷歌在GitHub平台发布了一款3D生成模型「CAT3D」,通过使用多视角扩散模型来创建3D场景。
「CAT3D」通过使用多视角扩散模型来创建3D场景,提供了一种快速且高效的方法来生成3D内容。这次大模型的发布,彰显了3D影像重建领域取得了显著的技术进展。
在过去,3D重建场景是一项非常繁琐而复杂的工作,需要耗费巨大的人力物力算力。现如今,用户只需要提供一些包含具体对象元素的图片,「CAT3D」就能够利用这些图片生成新的视角,然后通过一个强大的3D重建流程,将这些视角转换成一个可以实时渲染的3D表示。
据介绍,「CAT3D」能够在一分钟内完成整个3D场景的创建,这比现有的单图像和少视图3D场景创建方法要快得多。
只需在模型内上传一定数量的图像,就可以这些图像为条件的多视图扩散模型来生成场景的新视图。生成的视图被馈送到强大的3D重建管线,生成可以支持交互式实时渲染的3D成像文档。总处理时间(包括视图生成和3D重建)仅仅只需一分钟而已。
该模型不仅支持单图像输入,还能够处理多图像输入,从而生成更加丰富和详细的3D场景。CAT3D利用多视图扩散模型,可以根据任意数量的输入图像和目标新视图生成高度一致的场景新视图。
与竞争对手相比,「CAT3D」输出的3D图像渲染速度又快又清晰,细节保留程度较高,重复修改的工作量少。也不会出现明显的空间景深误差与视觉上的不和谐。
谷歌表示,生成的新视图可以作为3D重建技术的输入,实现从任何视点实时渲染3D表示,这对于虚拟现实、游戏开发和建筑设计等领域非常有用。
主要特点:
项目主页:
技术论文: