3D版DALLE来了谷歌发布文本3D

编辑：LRS

给一个文本提示就能生成3D模型！

自从文本引导的图像生成模型火了以后，画家群体迅速扩张，不会用画笔的人也能发挥想象力进行艺术创作。

但目前的模型，如DALL-E2,Imagen等仍然停留在二维创作（即图片），无法生成度无死角的3D模型。

想要直接训练一个text-to-3D的模型非常困难，因为DALL-E2等模型的训练需要吞噬数十亿个图像-文本对，但三维合成并不存在如此大规模的标注数据，也没有一个高效的模型架构对3D数据进行降噪。

最近Google研究员另辟蹊径，提出一个新模型DreamFusion，先使用一个预训练2D扩散模型基于文本提示生成一张二维图像，然后引入一个基于概率密度蒸馏的损失函数，通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

论文链接：