编辑:LRS
给一个文本提示就能生成3D模型!
自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。
但目前的模型,如DALL-E2,Imagen等仍然停留在二维创作(即图片),无法生成度无死角的3D模型。
想要直接训练一个text-to-3D的模型非常困难,因为DALL-E2等模型的训练需要吞噬数十亿个图像-文本对,但三维合成并不存在如此大规模的标注数据,也没有一个高效的模型架构对3D数据进行降噪。
最近Google研究员另辟蹊径,提出一个新模型DreamFusion,先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。
论文链接: