01AndesGPT-2.0性能全面领先 近日,权威第三方AGI评测机构SuperCLUE对外发布了《中文大模型基准评测2024年8月报告》,AndesGPT-2.0在此次测评中表现优异,斩获SuperCLUE 8月总榜国内大模型第2。同时,在SuperCLUE 8月测评子榜单中,AndesGPT-2.0还分别取得SuperCLUE-Safety、SuperCLUE-Math6和SuperCLUE-Agent榜单三项第一。 上图为SuperCLUE 8月总排行榜 上图为SuperCLUE-Safety安全榜单 上图为SuperCLUE-Math6数学推理榜单 上图为SuperCLUE-Agent智能体榜单
能取得这些成绩,离不开OPPO在大模型技术领域的深厚积累,AndesGPT-2.0作为OPPO在人工智能领域的又一力作,自发布以来便备受关注,该模型在对话增强、高效强化学习及多模态能力等关键技术上实现了重大突破,同时,在AI技术安全性、数学推理能力以及Agent能力等方面,AndesGPT-2.0均展现出行业领先地位。 作为OPPO AI战略的核心引擎,AndesGPT正全面赋能OPPO智慧终端,支持包括通话助手、智能摘要等多元化应用场景。未来,OPPO还将继续在云端算力上持续投入,通过自建的OPPO AI滨海湾数据中心,部署不同级别的模型以应对各种应用场景,实现端云协同、高效部署。 02AndesGPT-2.0的三大核心优势
1. 对话增强技术 在对话增强方面, AndesGPT-2.0深入研究小布助手的多轮对话,采用了多轮指令数据、多轮偏好数据合成技术,使得模型在理解和生成自然语言时更加精准和流畅,尤其是在处理复杂对话和挑战性任务时,能够提供更为符合用户需求的响应。目前,产出的数据已经广泛应用于“小布助手”等实际业务场景中,显著提升了用户体验。 2. 高效强化学习策略 在训练方法上,AndesGPT-2.0采用了迭代式监督微调和偏好对齐优化方法,不断从有用、期望和无害等多个角度对模型进行优化。该训练方法不仅提升了模型的智能性和可靠性,同时确保了模型在提供服务时的安全性和无害性,这对于构建用户信任至关重要。 3. 多模态能力 AndesGPT-2.0将大语言模型升级为多模态大模型,交互方式从传统的语言交互升级为语言+视觉+触摸的多模态交互,带来更加自然流畅的交互体验。
03AndesGPT-2.0技术突破解析
1、综合性能 为了全面提升AndesGPT-2.0的综合通用性能,OPPO研发团队精心收集了国内外广泛的开源指令数据集,并通过严格的数据过滤机制筛选出高质量的种子指令。基于这些种子数据,团队进一步通过指令进化和数据合成技术,不断优化指令数据集,确保模型在处理复杂任务时的准确性和鲁棒性。在精调模型阶段,通过多轮迭代合成指令数据,对模型进行全面查缺补漏,显著提升了综合能力。 特别是在处理超长上下文方面,团队不仅收集了丰富的开源长文本指令数据,还从预训练语料中筛选高质量长文本文档,通过数据合成生成了高质量的长文本指令数据集,使得AndesGPT-2.0在处理长文本时表现更加出色。在偏好对齐阶段,团队通过合成多轮偏好数据,并使用多轮迭代强化训练完成模型的偏好对齐训练,使模型更好地理解和满足用户的偏好。这些努力在SuperCLUE 8月份的测评中得到了验证,AndesGPT 2.0荣获银牌,国内排名第二,并入选卓越领导者象限。 2、技术安全性能 OPPO深刻理解大语言模型在带来便利的同时,也面临着多种安全威胁。为此,公司专门成立了AI安全实验室,专注于跟踪业界最新的攻击方法,全面评估自研模型的安全性。AndesGPT研发团队紧密结合实验室的评测结果,利用技术积累及时修补安全漏洞,确保模型的安全可靠。 在最新发布的Safety榜单中,AndesGPT以96.68分的总分成绩位列榜首,同时在传统安全榜、负责任安全榜和指令攻击安全榜等子类榜单上也均取得第一,充分展示了OPPO在AI安全领域的领先地位和不懈努力。此外,AndesGPT还在小布安全业务中发挥了重要作用,有效提升了业务系统的安全性和可靠性。 3、Agent能力 在Agent能力方面,AndesGPT通过构建1~6步APIs编排的“工具检索 + 任务规划”模型,实现了快捷指令等自动化任务流的高效执行。该模型能够将用户请求映射到丰富的工具库(包括垂域模型、云侧API及手机应用API)中,自动完成原本需要多次手动操作的任务。为了提升Agent效果,团队收集了数万级别的多样化API,并通过大模型优化API的功能描述和输入输出参数等字段,使其更易被模型感知。 在数据合成和训练调优方面,团队利用“API虚拟执行环境”提供的反馈信号,通过best of N、迭代反思修正等策略不断提升样本质量,同时采用“LLM + MCTS”方案优化Agent能力。在SuperCLUE-Agent榜单评测中,AndesGPT以总分80.12分位列国内第一,验证了其在任务规划方面的先进性。 4、数学推理能力 逻辑推理能力是大模型的重要组成部分,而数学问题则是检验这一能力的关键领域。针对数学问题的复杂性和多样性,AndesGPT研发团队收集了海量开源数学数据集,并通过三重数据过滤构造高质量的CoT(Chain of Thought)和PoT(Program of Thought)数据。 针对多步数学问题出错率较高的问题,团队通过指令进化、多轮问题转多步问题等方法大幅增加多步数据占比,并通过多轮迭代指令精调和强化学习优化显著提升了模型的数学能力。在SuperCLUE-Math6的测评中,AndesGPT以90.45分的综合分数夺得国内第一,充分展示了在数学推理领域的强大实力。
04总结与展望 AndesGPT-2.0大模型具备对话增强、高效强化学习、多模态能力三大亮点,凭借优异的综合性能、安全性能、agent能力、数学推理能力,在SuperCLUE-8月测评中取得了卓越成绩。这些成就的取得,是OPPO在AI领域持续创新和技术研发的结果。 展望未来,随着技术的不断进步和创新,AndesGPT-2.0有望在更多领域展现更强大的能力,为用户提供更加丰富和高效的智能服务体验。OPPO也将持续推动AI技术的边界,为全球用户带来更多创新和价值。