代码大模型 aiXcoder-7B_SoHoBlink人工智能AI产品

代码大模型 aiXcoder-7B

发布时间：2024-09-15 17:42:57 浏览：229

在多个主流评估标准评测集中，无论是代码生成、代码补全还是跨文件上下文代码生成效果，aiXcoder-7B模型均有极佳表现，甚至超越参数量大5倍的34B代码大模型，已达到当前SOTA水准，堪称最适于实际编程场景的基础模型。

在真实开发场景中，aiXcoder-7B模型具有更多优势，展现出独特的科技智能与美学。比如预训练采用32K token的上下文长度，并且推理时可扩展至256K，能覆盖整个开发项目中的绝大部分代码；可准确判断何时需要生成新代码、何时代码逻辑已完整无需补全，直接生成完整的代码块、方法体、控制流程；可以准确地抽取项目级的上下文信息，大大降低大语言模型在预测API时产生的幻觉。

高质量训练数据和

针对性训练方法的养成记

aiXcoder-7B模型训练集涵盖1.2T Unique token数据，覆盖数十种主流编程语言。aiXcoder团队在构建训练数据时，针对数十种主流编程语言进行了语法分析，过滤掉错误的代码片段，还对十多种主流语言的代码进行了静态分析，总共剔除了163种bug和197种常见代码缺陷，确保了训练数据的高质量。

为了增强模型对代码语义和结构的建模能力，aiXcoder团队采取了多种创新策略。一方面利用代码聚类和函数调用关系图的方式，捕捉多个文件之间的相互注意力关系;另一方面，将抽象语法树的结构信息融入了预训练任务中，帮助模型学习代码的语法和模式特征。

“开箱即适配”的

企业级代码大模型

易部署

在企业实际环境中部署时，通常企业的部署资源是受限的。aiXcoder-7B只有7B参数规模，易于部署，还有成本低、性能好的优点。

易定制

大多企业都有自己的软件开发框架和API的库，与其关联的业务逻辑、代码架构规范都因地制宜十分个性化，同时这些内容又都有私密性。必须得让大模型学会这些企业代码资产，通过进行有效个性化训练，才能真正为企业所用。

易组合

未来提供企业服务时，会让多个7B模型形成MOE架构，组合成为一套解决方案来完成企业定制化服务。不同的企业，都可以得到符合自身个性化需求的MoE版代码大模型解决方案，既能使用产品，又可享受服务。

关于SoHoBlink人工智能网

微信公众号