英特尔实验室的研究人员与学术和行业专家合作,推出了一种开创性的技术,用于从稀疏的多模态输入生成逼真且可指导的人体运动。他们的工作在欧洲计算机视觉会议 (ECCV 2024) 上重点介绍,重点是克服在高维人形角色中生成自然的、基于物理的人类行为的挑战。这项研究是 Intel Labs 为推进计算机视觉和机器学习而开展的更广泛计划的一部分。
英特尔研究院及其合作伙伴最近在欧洲计算机视觉协会 (ECVA) 组织的顶级会议 ECCV 2024 上发表了六篇前沿论文。
论文 Generating Physics Realistic and Directable Human Motions from Multi-Modal Inputs 展示了创新,包括一种新颖的防御策略,用于保护文本到图像模型免受基于提示的红队攻击,以及开发旨在提高这些模型空间一致性的大规模数据集。在这些贡献中,该论文强调了英特尔致力于推进生成建模,同时优先考虑负责任的 AI 实践。
使用多模态输入生成逼真的人体动作
英特尔的蒙面人形控制器 (MHC) 是一个突破性的系统,旨在在模拟物理环境中生成类似人类的运动。与严重依赖完全详细的动作捕捉数据的传统方法不同,MHC 旨在处理来自各种来源的稀疏、不完整或部分输入数据。这些源可以包括 VR 控制器,它可能只跟踪手部或头部的移动;仅提供高级导航命令的操纵杆输入;视频跟踪,其中某些身体部位可能被遮挡;甚至是从文本提示中得出的抽象指令。
该技术的创新在于它能够解释和填补数据缺失或不完整的空白。它通过英特尔所说的追赶、组合和完整 (CCC) 功能来实现这一点:
追赶:此功能允许 MHC 在发生中断时恢复并重新同步其运动,例如当系统以故障状态启动时,例如人形角色坠落时。该系统可以快速纠正其动作并恢复自然运动,而无需重新训练或手动调整。
结合:MHC 可以将不同的运动序列混合在一起,例如将一个动作(例如挥手)的上半身动作与另一个动作(例如步行)的下半身动作合并。这种灵活性允许从现有运动数据生成全新的行为。
完整:当给定稀疏输入时,例如部分身体运动数据或模糊的高级指令,MHC 可以智能地推断并生成运动的缺失部分。例如,如果只指定手臂运动,MHC 可以自主生成相应的腿部运动,以保持身体平衡和真实感。
结果是一个适应性很强的运动生成系统,可以创建平滑、逼真且物理准确的运动,即使指令不完整或未指定。这使得 MHC 成为游戏、机器人、虚拟现实以及需要高质量类似人类运动但输入数据受限的任何场景的应用的理想选择。
MHC 对生成式运动模型的影响
蒙面人形控制器 (MHC) 是英特尔研究院及其合作者为负责任地构建生成模型而做出的更广泛努力的一部分,包括支持文本到图像和 3D 生成任务的模型。正如在 ECCV 2024 上所讨论的那样,这种方法对机器人、虚拟现实、游戏和模拟等行业具有重大影响,在这些行业中,生成逼真的人体运动至关重要。通过整合多模态输入并使控制器能够在运动之间无缝转换,MHC 可以处理传感器数据可能嘈杂或不完整的真实情况。
英特尔实验室的这项工作与 ECCV 2024 上展示的其他高级研究相辅相成,例如他们对文本到图像模型的新型防御以及提高图像生成空间一致性的技术开发。这些进步共同展示了英特尔在计算机视觉领域的领导地位,专注于开发安全、可扩展和负责任的人工智能技术。
结论
由英特尔实验室和学术合作者开发的蒙面人形控制器 (MHC) 代表了人体运动生成领域向前迈出的关键一步。通过解决从多模态输入生成真实运动的复杂控制问题,MHC 为 VR、游戏、机器人和模拟领域的新应用铺平了道路。这项研究在 ECCV 2024 上展出,展示了英特尔致力于推进负责任的人工智能和生成建模,为各个领域更安全、更具适应性的技术做出贡献。