Meta Reality Labs分享MVP体的3D动态渲染技术的启发和挑战。

(魏莹。com 2021,65438+265438+2,21)Meta在题为《高效神经渲染的体基元混合》的论文中提出了一种针对体3D内容的MVP动态渲染技术,该技术结合了体素和基于体素的方法的优点,实现了高性能解码和高效渲染。近日,Meta旗下Reality Labs的研究科学家斯蒂芬·隆巴迪(Stephen Lombardi)接受了SIGGRAPH的专访,进一步介绍了相关研究。

在三维神经体方面,团队提出了仅给定多视点图像数据,根据新视图实时重建和渲染运动物体的方法。这是一个非常令人兴奋的研究领域,因为它将在虚拟现实和增强现实中实现引人注目的交互内容。

三维神经体背后的主要思想是用身体的三维表示来模拟场景。体积的三维表示包括空间中每个点的RGB颜色和不透明度值。在那篇论文中,该团队探索了基于体素的体积三维表示。基于体素的方法具有一系列优点。首先,可以使用3D卷积实时生成体素网格,从而对动态场景进行建模。其次,可以使用三线性插值来快速采样三维体积的颜色和不透明度值。这些优势使得“神经体积”模型能够实时呈现。然而,“神经体积”在场景的三维范围内均匀地分布体素,这使得对高分辨率对象建模变得困难。

为了解决这个问题,团队提出了“混合易变原语(MVP)”。不是使用大的三维体素网格来模拟场景,而是使用一组较小的移动体素网格来模拟场景。通过允许模型更好地控制场景不同部分的体素密度,并使用图元的运动来建模场景的运动,MVP可以以比‘神经体’更高的分辨率和更快的帧率来建模动态场景。

为移动对象创建一组3D图元涉及两个主要部分:图元的初始化和用于从多视图视频数据训练系统的学习框架。

对于初始化,使用经典的人脸建模技术(如关键点检测、三维重建和混合形状跟踪)来生成人脸的动态三角网格。要初始化图元,只需将它们放置在三角形网格的表面,并将其均匀分布在面网格的UV空间中。这种初始化对于获得真正高质量的结果非常重要,因为在训练期间,学习框架可能会陷入局部最小值。通过将图元初始化为均匀分布在人脸表面,可以保证所有图元都被使用,整个人脸模型的分辨率大致相似。

虽然初始化为许多三维图元(尤其是人脸)提供了合适的初始位置,但对于其他区域(如头发和肩膀)初始化通常是错误的。为了解决这个问题,训练模型生成基本位置、方向和内容,以最佳匹配从多视图捕捉系统捕捉的图像。这种训练过程允许从任何角度进行高质量的角色渲染。

最大的挑战是决定探索的研究方向。虽然可学习的3D建模和渲染技术在过去几年已经非常流行,但在那时,我们不知道这种方法会有多成功。即使现在,我们仍在努力提高MVP的实时性能,使其能够与更传统的表示方法竞争,如三角形网格。但考虑到模型的复杂性,难度很大。

实时之所以如此重要,是因为Meta的任务是在虚拟现实中创建逼真的虚拟化身,最终在AR中实现* * *的感觉,让你可以轻松地与对方交流思想和情感,不仅仅是通过文字,还包括面部表情和肢体动作。

可想而知,考虑到这一切,需要大量的人参与。除了开发算法的研究团队,还有一个很大的团队,负责管理抓拍系统的硬件和软件,管理数据的抓拍过程,管理数据的存储和预处理(例如开发和运行经典的人脸跟踪算法)。事实上,这篇论文是该团队在宾夕法尼亚州匹兹堡实验室多年努力的结果。