波兰和英国的研究人员之间的一项新合作提出了使用高斯展开来编辑图像的前景,方法是将图像的选定部分临时解释为 3D 空间,允许用户修改和操作图像的 3D 表示,然后应用转换。
由于 Gaussian Splat 元素暂时由三角形网格表示,并暂时进入“CGI 状态”,因此集成到该过程中的物理引擎可以解释自然运动,以更改对象的静态状态或生成动画。
该过程不涉及生成式 AI,这意味着不涉及潜在扩散模型 (LDM),这与 Adobe 的 Firefly 系统不同,该系统是在 Adobe Stock(以前称为 Fotolia)上训练的。
该系统称为 MiraGe,通过创建所选内容的镜像并近似可包含在 Splatter 中的 3D 坐标,然后将图像解释为网格,将所选内容解释为 3D 空间并推断几何图形。
作者将 MiraGe 系统与以前的方法进行了比较,发现它在目标任务中实现了最先进的性能。
zBrush 建模系统的用户会熟悉这个过程,因为 zBrush 允许用户基本上“展平”3D 模型并添加 2D 细节,同时保留底层网格,并将新细节解释到其中——这种“冻结”与 MiraGe 方法相反,后者的操作更像 Firefly 或其他 Photoshop 风格的模态操作, 例如翘曲或粗糙的 3D 解释。
该论文指出:
“[我们] 引入了一种模型,通过模拟人类解释来编码 2D 图像。具体来说,我们的模型将 2D 图像感知为人类查看照片或纸张,并将其视为 3D 空间中的平面对象。
“这种方法允许直观和灵活的图像编辑,捕捉人类感知的细微差别,同时实现复杂的转换。”
这篇新论文的标题为 MiraGe:使用高斯展开的可编辑 2D 图像,由克拉科夫雅盖隆大学和剑桥大学的四位作者撰写。该系统的完整代码已在 GitHub 上发布。
让我们来看看研究人员是如何应对这一挑战的。
方法
MiraGe 方法利用高斯网格飞溅 (GaMeS) 参数化,该技术由一个小组开发,该小组包括新论文的两位作者。GaMeS 允许将高斯 Splats 解释为传统的 CGI 网格,并受制于 CGI 社区在过去几十年中开发的标准变形和修改技术范围。
MiraGe 在 2D 空间中解释“平面”高斯,并使用 GaMeS 将内容临时“拉”到支持 GSplat 的 3D 空间中。
我们可以在上面图像的左下角看到,MiraGe 为要解释的图像部分创建了一个“镜像”图像。
作者指出:
“[我们] 采用了一种新颖的方法,利用两个相对的相机沿 Y 轴放置,围绕原点对称对齐并相互对准。第一个摄像头的任务是重建原始图像,而第二个摄像头负责模拟镜像反射。
“因此,这张照片被概念化为一张半透明的描图纸,嵌入到 3D 空间环境中。可以通过水平翻转 [image] 来有效地表示反射。这种镜像相机设置提高了所生成反射的保真度,为准确捕捉视觉元素提供了强大的解决方案。
该论文指出,一旦实现了这种提取,通常具有挑战性的透视调整就可以通过 3D 直接编辑来实现。在下面的示例中,我们看到一个仅包含其手臂的女性图像的选择。在这种情况下,用户以合理的方式将手向下倾斜,这将是一项具有挑战性的任务,只需推动像素即可。
使用 Photoshop 中的 Firefly 生成工具尝试此操作通常意味着手被合成的、扩散想象的手所取代,从而破坏编辑的真实性。即使是功能更强大的系统,例如用于稳定扩散的 ControlNet 辅助系统和其他潜在扩散模型,例如 Flux,也难以在图像到图像管道中实现这种编辑。
这种特殊的追求一直由使用隐式神经表示 (INR) 的方法主导,例如 SIREN 和 WIRE。隐式和显式表示方法之间的区别在于,模型的坐标在 INR 中不能直接寻址,INR 使用 continuous 函数。
相比之下,高斯展开提供显式且可寻址的 X/Y/Z 笛卡尔坐标,即使它使用高斯省略号而不是体素或其他在 3D 空间中描述内容的方法。
作者指出,在 2D 空间中使用 GSplat 的想法在 2024 年中国学术合作 GaussianImage 中得到了最突出的阐述,该合作提供了 2D 版本的 Gaussian Splatting,可实现 1000fps 的推理帧速率。但是,此模型没有与图像编辑相关的实现。
在 GaMeS 参数化将所选区域提取为高斯/网格表示后,使用 2018 年 CSAIL 论文中首次概述的材料点法 (MPM) 技术重建图像。
在 MiraGe 中,在更改过程中,高斯 Splat 作为等效网格版本的指导代理存在,就像 3DMM CGI 模型经常用作隐式神经渲染技术(如神经辐射场 (NeRF))的编排方法一样。
在此过程中,二维对象在 3D 空间中建模,并且未受影响的图像部分对最终用户不可见,因此在过程结束之前,操作的上下文效果并不明显。
MiraGe 可以集成到流行的开源 3D 程序 Blender 中,该程序现在经常用于 AI 包容性工作流程,主要用于图像到图像目的。
作者提供了基于高斯飞溅的变形方法的两个版本——无定形和石墨。
Amorphous 方法直接利用 GaMeS 方法,并允许提取的 2D 选择在 3D 空间中自由移动,而 Graphite 方法在初始化和训练期间将高斯限制在 2D 空间。
研究人员发现,尽管 Amorphous 方法可能比 Graphite 更好地处理复杂形状,但“撕裂”或裂缝伪影更明显,其中变形的边缘与图像的未受影响部分对齐*。
因此,他们开发了上述“镜像”系统:
“[我们] 采用了一种新颖的方法,利用两个相对的相机沿 Y 轴放置,围绕原点对称对齐并相互对准。
“第一台摄像机的任务是重建原始图像,而第二台摄像机则对镜面反射进行建模。因此,这张照片被概念化为一张半透明的描摹纸,嵌入到 3D 空间环境中。可以通过水平翻转 [image] 来有效地表示反射。
“这种镜像相机设置提高了生成反射的保真度,为准确捕捉视觉元素提供了强大的解决方案。”
该论文指出,MiraGe 可以使用外部物理引擎,例如 Blender 或 Taichi_Elements 中提供的引擎。
数据和测试
在 MiraGe 测试中,为了评估图像质量,使用了信噪比 (SNR) 和 MS-SIM 指标。
使用的数据集是 Kodak Lossless True Color Image Suite 和 DIV2K 验证集。这些数据集的分辨率适合与最接近的先前工作 Gaussian Image 进行比较。其他试用的竞争对手框架是 SIREN、WIRE、NVIDIA 的即时神经图形基元 (I-NGP) 和 NeuRBF。
实验在 NVIDIA GEFORCE RTX 4070 笔记本电脑和 NVIDIA RTX 2080 上进行。
对于这些结果,作者指出:
“我们看到,我们的主张在这两个数据集上都优于以前的解决方案。与之前的所有方法相比,这两个指标衡量的质量都显示出显著的改进。
结论
MiraGe 对 2D 高斯展开的改编显然是一次新生的试探性尝试,它可能被证明是一种非常有趣的替代方案,可以替代使用扩散模型对图像进行修改的变幻莫测和奇思妙想(即,通过 Firefly 和其他基于 API 的扩散方法,以及通过 Stable Diffusion 和 Flux 等开源架构)。
尽管有许多扩散模型可以影响图像中的微小变化,但 LDM 受到其语义的限制,并且通常对基于文本的用户修改请求“过于富有想象力”的方法。
因此,将图像的一部分临时拉入 3D 空间,对其进行处理并将其替换回图像中,同时仅使用源图像作为参考,似乎是高斯展开在未来可能非常适合的任务。