欢迎访问SoHoBlink人工智能行业网站,合作电话:13817964035。
首页 > 产品服务 > 代码大模型 aiXcoder-7B
代码大模型 aiXcoder-7B
发布时间:2024-09-15 17:42:57  浏览:229

在多个主流评估标准评测集中,无论是代码生成、代码补全还是跨文件上下文代码生成效果,aiXcoder-7B模型均有极佳表现,甚至超越参数量大5倍的34B代码大模型,已达到当前SOTA水准,堪称最适于实际编程场景的基础模型。

在真实开发场景中,aiXcoder-7B模型具有更多优势,展现出独特的科技智能与美学。比如预训练采用32K token的上下文长度,并且推理时可扩展至256K,能覆盖整个开发项目中的绝大部分代码;可准确判断何时需要生成新代码、何时代码逻辑已完整无需补全,直接生成完整的代码块、方法体、控制流程;可以准确地抽取项目级的上下文信息,大大降低大语言模型在预测API时产生的幻觉。

高质量训练数据和

针对性训练方法的养成记

aiXcoder-7B模型训练集涵盖1.2T Unique token数据,覆盖数十种主流编程语言。aiXcoder团队在构建训练数据时,针对数十种主流编程语言进行了语法分析,过滤掉错误的代码片段,还对十多种主流语言的代码进行了静态分析,总共剔除了163种bug和197种常见代码缺陷,确保了训练数据的高质量。

为了增强模型对代码语义和结构的建模能力,aiXcoder团队采取了多种创新策略。一方面利用代码聚类和函数调用关系图的方式,捕捉多个文件之间的相互注意力关系;另一方面,将抽象语法树的结构信息融入了预训练任务中,帮助模型学习代码的语法和模式特征。

“开箱即适配”的

企业级代码大模型

易部署

在企业实际环境中部署时,通常企业的部署资源是受限的。aiXcoder-7B只有7B参数规模,易于部署,还有成本低、性能好的优点。

易定制

大多企业都有自己的软件开发框架和API的库,与其关联的业务逻辑、代码架构规范都因地制宜十分个性化,同时这些内容又都有私密性。必须得让大模型学会这些企业代码资产,通过进行有效个性化训练,才能真正为 企业所用。

易组合

未来提供企业服务时,会让多个7B模型形成MOE架构,组合成为一套解决方案来完成企业定制化服务。不同的企业,都可以得到符合自身个性化需求的MoE版代码大模型解决方案,既能使用产品,又可享受服务。


北京硅心科技有限公司
硅心科技是一家AI虚拟编程机器人研发商,旗下开发有“aiXcoder智能编程机器人”,基于深度学习模型,并针对不同的专业领域和编程语言,能够自动预测程序员的编程意图,向用户推荐即将书写的下一段代码,进而提升代码的编写效率。
联系方式
电话:请登录查询************************010-5285-1835  
网址:************************https://www.aixcoder.com/#/Home
平台客服微信:wrshanghai
需求也可发至:171920374@qq.com
热门分类:
名人创业故事:

关于SoHoBlink人工智能网


60万+泛人工智能行业企业数据,每年1000+行业会议宣传,领氪网络SoHoBlink人工智能专业网站,是一个泛人工智能行业新媒体门户网站,同时也是一个行业图谱和供应商名录,用户可在网站上通过分类栏目或者关键词搜索,找到需要的供应商,企业也可主动申请加入网站,推广自己的企业品牌,获得更多合作机会。
联系方式:13817964035(微信同号)合作邮箱:171920374@qq.com
地址1:中国上海市徐汇区南丹东路106号

微信公众号

扫码关注
©2016 思南领氪网络工作室 苏ICP备16027939号-1