-
Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像
2024-04-15 09:30:23 今日更新 -
导读 关于Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像,这个很多人还不知道,今天澜澜就给大家说道说道,下面就让我们一起来看看吧! ...
关于Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像,这个很多人还不知道,今天澜澜就给大家说道说道,下面就让我们一起来看看吧!
站长之家(ChinaZ.com)4月15日 消息:Meta 与德国慕尼黑工业大学研发出创新模型 ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D 图像。
该模型解决了传统文本生成多视角3D 图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。通过引入一种创新架构,ViewDiff 采用文生成图模型作为先验知识和图像流生成器,再通过显式的3D 建模为图像赋予一致性和多视角能力。
为了有效捕获3D 几何和全局风格,研究人员对原有 U-Net 架构进行了创新,增强了跨帧注意力层和投影层。跨帧注意力层替换了标准自注意力层,实现跨图像风格匹配;而投影层将多视图2D 特征集成为显式的3D 体素特征,保证了输出图像的3D 几何一致性。在此基础上,ViewDiff 还开发了自回归生成模块,使其能在任意视角上生成更多的3D 一致性图像,进一步提升了模型的生成能力。
该研究的推出填补了文本生成多视角3D 图像领域的技术空白,有望为游戏开发、元宇宙等行业提供更便捷、高效的模型构建方案。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D 图像生成领域带来更多创新可能。
论文地址:https://arxiv.org/abs/2403.01807
项目地址:https://top.aibase.com/tool/viewdiff
以上就是关于【Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像】的相关内容,希望对亲们有所帮助!
标 签:
免责声明:本文由用户上传,如有侵权请联系删除!