DeepMind 的米开朗基罗基准测试：揭示长上下文 LLM 的局限性

Assad Abbas 博士 2024-10-20 08:57:11 浏览:221

随着人工智能（AI）的不断发展，处理和理解长序列信息的能力变得越来越重要。AI 系统现在用于复杂的任务，例如分析长文档、跟上扩展的对话和处理大量数据。然而，目前的许多模型都在努力进行长上下文推理。随着输入时间变长，它们通常会忘记重要细节，从而导致结果不准确或连贯。

这个问题在医疗保健、法律服务和金融行业尤其成问题，在这些行业中，AI 工具必须处理详细的文档或冗长的讨论，同时提供准确、上下文感知的响应。一个常见的挑战是上下文漂移，即模型在处理新输入时会忽略早期信息，从而导致结果的相关性降低。

为了解决这些限制，DeepMind 开发了米开朗基罗基准测试。该工具严格测试 AI 模型管理长期上下文推理的能力。该基准测试的灵感来自艺术家米开朗基罗，他以揭示大理石块中的复杂雕塑而闻名，它有助于发现 AI 模型如何从大型数据集中提取有意义的模式。通过识别当前模型的不足之处，米开朗基罗基准测试可以改进 AI 在长期上下文中的推理能力。

了解 AI 中的长上下文推理

长上下文推理是关于 AI 模型在长文本、代码或对话序列中保持连贯和准确的能力。GPT-4 和 PaLM-2 等模型在短或中等长度输入下表现良好。但是，他们需要有关较长上下文的帮助。随着输入长度的增加，这些模型通常会丢失早期零件中的基本细节。这会导致理解、总结或决策方面的错误。此问题称为上下文窗口限制。模型保留和处理信息的能力会随着上下文的增加而降低。

此问题在实际应用程序中非常重要。例如，在法律服务中，AI 模型分析可能长达数百页的合同、案例研究或法规。如果这些模型不能有效地保留和推理如此长的文档，它们可能会错过基本条款或误解法律术语。这可能会导致不准确的建议或分析。在医疗保健领域，AI 系统需要综合跨越数年甚至数十年的患者记录、病史和治疗计划。如果模型无法从早期记录中准确回忆起关键信息，则可能会推荐不适当的治疗方法或误诊患者。

尽管已经努力提高模型的标记限制（例如 GPT-4 处理多达 32,000 个标记，大约 50 页的文本），但长上下文推理仍然是一个挑战。上下文窗口问题限制了模型可以处理的输入量，并影响了它在整个输入序列中保持准确理解的能力。这会导致上下文漂移，即随着新信息的引入，模型会逐渐改变或获取早期的细节。这降低了它生成连贯和相关输出的能力。

米开朗基罗基准：概念和方法

Michelangelo Benchmark 通过测试 LLM 在需要它们在扩展序列中保留和处理信息的任务来应对长上下文推理的挑战。与早期的基准测试不同，早期的基准测试侧重于短上下文任务，如句子完成或基本问答，而米开朗基罗基准测试强调挑战模型对长数据序列进行推理的任务，通常包括干扰或不相关的信息。

Michelangelo Benchmark 使用潜在结构查询（LSQ）框架对 AI 模型进行挑战。这种方法要求模型在大型数据集中找到有意义的模式，同时过滤掉不相关的信息，类似于人类筛选复杂数据以专注于重要内容的方式。该基准测试侧重于两个主要领域：自然语言和代码，引入了测试的不仅仅是数据检索的任务。

一项重要任务是 Latent List 任务。在此任务中，模型将获得一系列 Python 列表操作，例如追加、删除或排序元素，然后它需要生成正确的最终列表。更困难的是，该任务包括不相关的操作，例如反转列表或取消前面的步骤。这测试了模型专注于关键操作的能力，模拟 AI 系统必须如何处理具有混合相关性的大型数据集。

另一个关键任务是多轮共指分辨率（MRCR）。此任务衡量模型在具有重叠或不明确主题的长时间对话中跟踪引用的能力。挑战在于模型将对话后期的引用链接到前面的要点，即使这些引用隐藏在不相关的细节下。这项任务反映了现实世界的讨论，其中的主题经常发生变化，AI 必须准确跟踪和解决参考文献，以保持连贯的沟通。

此外，米开朗基罗还具有 IDK 任务，该任务测试模型在没有足够的信息来回答问题时的识别能力。在此任务中，模型会显示可能不包含用于回答特定查询的相关信息的文本。挑战在于模型识别正确响应是 “I don't know” 的情况，而不是提供合理但不正确的答案。这项任务反映了 AI 可靠性的一个关键方面 — 识别不确定性。

通过此类任务，米开朗基罗超越了简单的检索，以测试模型推理、综合和管理长期上下文输入的能力。它为长期上下文推理引入了一个可扩展的、综合的、未泄露的基准，提供了对 LLM 的当前状态和未来潜力的更精确衡量。

对 AI 研发的影响

Michelangelo 基准测试的结果对我们开发 AI 的方式具有重大影响。基准测试表明，当前的 LLM 需要更好的架构，尤其是在注意力机制和内存系统方面。目前，大多数 LLM 都依赖于自我注意机制。这些任务对于短期任务有效，但当环境变大时，这些任务就会变得困难。这就是我们看到上下文漂移问题的地方，模型忘记或混淆了之前的细节。为了解决这个问题，研究人员正在探索内存增强模型。这些模型可以存储对话或文档早期部分的重要信息，允许 AI 在需要时调用和使用它。

另一种有前途的方法是分层处理。这种方法使 AI 能够将较长的输入分解为更小、更易于管理的部分，这有助于它在每个步骤中专注于最相关的细节。这样，模型可以更好地处理复杂的任务，而不会立即被太多信息淹没。

改进长上下文推理将产生相当大的影响。在医疗保健领域，这可能意味着更好地分析患者记录，其中 AI 可以随着时间的推移跟踪患者的病史并提供更准确的治疗建议。在法律服务方面，这些进步可能会导致 AI 系统能够更准确地分析长期合同或判例法，从而为律师和法律专业人士提供更可靠的见解。

然而，随着这些进步而来的是关键的道德问题。随着 AI 在长时间上下文中的保留和推理能力越来越强，存在暴露敏感或私人信息的风险。对于医疗保健和客户服务等机密性至关重要的行业来说，这是一个真正的问题。

如果 AI 模型从以前的交互中保留了太多信息，它们可能会在未来的对话中无意中泄露个人详细信息。此外，随着 AI 更好地生成令人信服的长篇内容，它有可能被用来制造更高级的错误信息或虚假信息，从而使 AI 监管的挑战进一步复杂化。

最后

Michelangelo Benchmark 揭示了 AI 模型如何管理复杂的长期上下文任务的见解，突出了它们的优势和局限性。随着 AI 的发展，该基准测试推动了创新，鼓励更好的模型架构和改进内存系统。医疗保健和法律服务等行业转型的潜力令人兴奋，但也伴随着道德责任。

随着 AI 越来越擅长处理大量信息，必须解决隐私、错误信息和公平问题。AI 的增长必须始终专注于深思熟虑和负责任地造福社会。

了解 AI 中的长上下文推理

米开朗基罗基准：概念和方法

对 AI 研发的影响

SoHoBlink - 人工智能行业网站

关于SoHoBlink人工智能网

微信公众号