来自美国的新研究提出了一种从微调模型中提取大部分训练数据的方法。
如果艺术家的风格被复制,或者受版权保护的图像被用于训练公众人物、受 IP 保护的角色或其他内容的生成模型,这可能会提供法律证据。
来自新论文:原始训练图像显示在上一行中,提取的图像显示在下面的行中。 来源: https://arxiv.org/pdf/2410.03039
这些模型在互联网上广泛而免费地提供,主要是通过用户贡献的大量 civit.ai 档案,在较小程度上,在 Hugging Face 存储库平台上。
研究人员开发的新模型称为 FineXtract,作者认为它在这项任务中取得了最先进的结果。
该论文观察到:
“[我们的框架] 有效地解决了从公开可用的 DM 微调检查点中提取微调数据的挑战。通过利用从预训练 DM 分布到微调数据分布的过渡,FineXtract 准确地将生成过程引导到微调数据分布的高概率区域,从而成功提取数据。
最右侧是训练中使用的原始图像。右二,通过 FineXtract 提取的图像。其他列表示替代的先前方法。请参阅源论文以获得更好的分辨率。
为什么重要
最终用户可以使用 2022 DreamBooth 实现等技术下载和微调文本到图像生成系统的原始训练模型,如 Stable Diffusion 和 Flux。
更简单的是,用户可以创建一个小得多的 LoRA 模型,该模型几乎与完全微调的模型一样有效。
一个经过训练的 LORA 示例,可在广受欢迎的 civitai 域中免费下载。这样的模型可以由爱好者使用本地安装的开源软件在几分钟到几小时内创建,也可以通过一些更宽松的 API 驱动的训练系统在线创建。来源: civitai.com
自 2022 年以来,创建特定于身份的微调检查点和 LoRA 一直很简单,只需提供少量(平均 5-50 张)带字幕的图像,并在 Kohya ss 等开源框架上在本地训练检查点(或 LoRA)或使用在线服务。
在过去的几年里,这种简单的深度伪造方法在媒体上臭名昭著。许多艺术家还将他们的作品纳入复制他们风格的生成模型中。在过去的 18 个月里,围绕这些问题的争议越来越大。
用户可以轻松创建复制真实艺术家作品的 AI 系统,这在过去两年中引起了轩然和各种活动。来源: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/
很难证明哪些图像被用于微调检查点或 LoRA,因为泛化过程从小型训练数据集中“抽象”了身份,并且不太可能从训练数据中复制示例(除非在过拟合的情况下,在这种情况下,可以认为训练失败)。
这就是 FineXtract 的用武之地。通过将用户下载的“模板”扩散模型的状态与他们随后通过微调或 LoRA 创建的模型进行比较,研究人员已经能够创建高度准确的训练数据重建。
尽管 FineXtract 只能从微调*中重新创建 20% 的数据,但这比通常提供证据证明用户在生成模型生产中使用了受版权保护或以其他方式受保护或禁止的材料所需的数据要多。在提供的大多数示例中,提取的图像与已知的源材料非常接近。
虽然需要标题来提取源图像,但这并不是一个重大障碍,原因有两个:a) 上传者通常希望促进社区中使用该模型,并且通常会提供适当的提示示例;b) 研究人员发现,从微调模型盲目地提取关键项并不难:
通常可以使用 L2-PGD 攻击从微调模型中盲目地提取基本关键字,迭代 1000 次,从随机提示符中。
用户经常避免将其训练数据集与“黑盒”式训练模型一起提供。在这项研究中,作者与机器学习爱好者合作,他们确实提供了数据集。
这篇新论文的标题是 Revealing the Unseen: Guiding Personalized Diffusion Models to Expose Training Data,由卡内基梅隆大学和普渡大学的三名研究人员撰写。
方法
“攻击者”(在本例中为 FineXtract 系统)在原始模型和微调模型中比较估计的数据分布,作者称之为“模型指导”。
通过新论文的研究人员开发的 “模型指导”,可以映射微调特性,从而允许提取训练数据。
作者解释说:
“在微调过程中,[扩散模型] 逐渐将其学习的分布从预训练的 DM 的 [分布] 转移到微调的数据 [分布]。
“因此,我们以参数方式近似了微调 [扩散模型] 的学习分布。”
这样,核心模型和微调模型之间的差异之和提供了指导过程。
作者进一步评论道:
“通过模型指导,我们可以有效地模拟 'pseudo-'[denoiser],它可以用来将采样过程引导到微调数据分布中的高概率区域。”
该指南部分依赖于类似于 2023 年的 Erasing Concepts from Diffusion Models。
获得的降噪预测还提供了一个可能的无分类器指导 (CFG) 量表。这一点很重要,因为 CFG 会显著影响图片质量和用户文本提示的保真度。
为了提高提取图像的准确性,FineXtract 借鉴了 2023 年广受好评的合作项目 Extracting Training Data from Diffusion Models。使用的方法是根据自监督描述符 (SSCD) 分数定义的阈值计算每对生成图像的相似性。
通过这种方式,聚类算法可帮助 FineXtract 识别与训练数据一致的提取图像子集。
在这种情况下,研究人员与提供数据的用户合作。可以合理地说,如果没有这些数据,就不可能证明任何特定的生成图像实际上被用于原始图像的训练。但是,现在,仅根据图像内容将上传的图像与 Web 上的实时图像或已知和已发布数据集中的图像进行匹配相对简单。
数据和测试
为了测试 FineXtract,作者在项目范围内,在两种最常见的微调场景中对小镜头微调模型进行了实验:艺术风格和对象驱动生成(后者实际上包含基于面部的主体)。
他们从 WikiArt 数据集中随机选择了 20 名艺术家(每人有 10 张图像),并从 DreamBooth 数据集中随机选择了 30 名主题(每人有 5-6 张图像)来解决这些各自的情况。
DreamBooth 和 LoRA 是有针对性的微调方法,Stable Diffusion V1/.4 用于测试。
如果聚类算法在 30 秒后未返回任何结果,则会修改阈值,直到返回图像。
用于生成图像的两个指标是 SSCD 下的平均相似度 (AS) 和平均提取成功率 (A-ESR) – 一种与先前工作大致一致的衡量标准,其中 0.7 分代表表示完全成功提取训练数据的最低分数。
由于以前的方法使用直接文本到图像生成或 CFG,因此研究人员将 FineXtract 与这两种方法进行了比较。
FineXtract 与两种最流行的先前方法的比较结果。
作者评论道:
“[结果] 表明,与以前的方法相比,FineXtract 具有显著优势,在大多数情况下,AS 性能提高了约 0.02 至 0.05,并且 A-ESR 增加了一倍。”
为了测试该方法推广到新数据的能力,研究人员使用 Stable Diffusion (V1.4)、Stable Diffusion XL 和 AltDiffusion 进行了进一步的测试。
FineXtract 应用于一系列扩散模型。对于 WikiArt 组件,测试侧重于 WikiArt 中的四个类。
如上所示,FineXtract 在更广泛的测试中也能够实现比先前方法的改进。
从 FineXtract 提取的结果与先前方法的定性比较。请参阅源论文以获得更好的分辨率。
作者观察到,当数据集中用于微调模型的图像数量增加时,聚类算法需要运行更长的时间才能保持有效。
他们还观察到,近年来在隐私保护的支持下,开发了各种旨在阻止此类提取的方法。因此,他们根据 Cutout 和 RandAugment 方法增强的数据对 FineXtract 进行了测试。
FineXtract 对受保护图像的性能;由 Cutout 和 RandAugment 提供。
虽然作者承认这两个保护系统在混淆训练数据源方面表现得相当不错,但他们指出,这是以输出质量严重下降为代价的,以至于保护变得毫无意义:
在 Stable Diffusion V1.4 下生成的图像,通过防御措施进行微调 - 这大大降低了图像质量。请参阅源论文以获得更好的分辨率。
该论文的结论是:
“我们的实验证明了该方法在各种数据集和现实世界检查点中的稳健性,突出了数据泄露的潜在风险,并为版权侵权提供了强有力的证据。”
结论
2024 年证明,面对媒体对 AI 取代人类的倾向的持续报道,以及合法保护他们自己热衷于利用的生成模型的前景,企业对“干净”训练数据的兴趣显着增加。
声称您的训练数据是干净的很容易,但类似的技术也越来越容易证明它不是——正如 Runway ML、Stability.ai 和 MidJourney(以及其他公司)最近几天发现的那样。
像 FineXtract 这样的项目可以说预示着人工智能的“狂野西部”时代将彻底结束,届时即使是训练有素的潜在空间的明显神秘性质也可以被追究责任。