近日,英伟达使用一种新技术将训练 NeRF 模型的时间缩减到仅需 5 秒。
对此,任职于谷歌的科学家乔恩·巴伦(Jon Barron)在 Twitter 上写道:“18 个月前,训练 NeRF 要 5 小时;2 个月前,训练 NeRF 仍要 5 分钟;而现在,英伟达的最新技术竟将训练 NeRF 的时间缩减到 5 秒!”
据了解,英伟达能够取得这一成绩的主要原因是采用了一种被称作多分辨率哈希编码(Multiresolution Hash Encoding)的技术。同时,其在一篇论文《基于多分辨率哈希编码的即时神经图形基元》(Instant Neural Graphics Primitives with a Multiresolution Hash Encoding)中对这一新技术做了详细说明。
英伟达表示:“计算机图形基元基本上由参数化外观的数学函数表示。数学表示的质量和性能特性对于视觉保真度至关重要。”其希望在保持快速和紧凑函数表示的同时,还能捕获高频、局部的细节。
为了达到上述要求,英伟达采用了多分辨率哈希编码技术。据英伟达称,该技术独立于任务之外,有着自适应性和高效性两大特性。其只有两个值进行配置,分别为参数的数量 T 和所需的最佳分辨率 Nmax。
利用该技术,只需经过几秒钟的训练,便能在各种任务中达到较高的质量。
图 | 在一个 GPU 上对多个任务神经图形基元的即时训练演示(来源:GitHub)
利用 NeRF,能够将一些静态图转成十分真实的 3D 图像。不过,NeRF 相当消耗算力,成本较高,特别是在渲染方面。
据论文中表述,“参数化全连接神经网络的神经图形基元的训练和评估”成本相对较高,为了将成本降低,英伟达采用一新的通用输入编码,可以在一个较小的网络,且不降低质量的情况下,显著减少浮点和内存访问操作的数量。英伟达因此实现了“几个数量级的组合加速,可以在几秒钟内训练高质量的神经图形基元。”
英伟达在神经辐射场(Neural Radiance Fields,NeRF)、神经辐射缓存(Neural Radiance Caching,NRC)、十亿像素图像(Gigapixel Image)、神经符号距离函数(Neural Signed Distance Functions,SDF)等四个较为有代表性的任务中验证了多分辨率哈希编码技术。
这里重点介绍一下 NeRF 任务。
动图 | 不同编码的重建质量演示(来源:GitHub)
上图每个图像下面显示的是可训练参数的数量(神经网络权重 + 编码参数)和训练时间。英伟达表示,由于参数更新的稀疏性和较小的神经网络,训练速度得到提升。另外,随着参数数量的增加,也可进一步提高近似质量,而训练时间却不会明显增加。
同时,英伟达的技术还支持现实 360 度全景场景和“具有较多模糊、镜面反射表面的复杂场景”,且都能够对它们进行实时渲染,并“在 5 分钟内通过随意捕获的数据进行训练”。
视频 | iPhone 拍摄的 360 度全景场景(来源:GitHub)
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com