近日,中国电信人工智能研究院(TeleAI)成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型(万卡万参),并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。
这是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领团队完成的又一项里程碑式的重要科研成果,标志着国产大模型训练真正实现全国产化替代,正式进入全国产自主创新、安全可控的新阶段。
星辰语义大模型 TeleChat2-115B 是由中国电信人工智能研究院(TeleAI)研发并开源的大语言模型,该模型完全基于国产算力进行训练。它采用了10万亿 Tokens的中英文高质量语料进行训练,并且在多个方面进行了优化和改进,比如在训练数据、训练方法上的改进,使得其在通用问答、知识类、代码类、数学类榜单上相比前一代 TeleChat1 有显著提升。
TeleChat2-115B 模型在设计上采用了标准的 Decoder-only 结构,并使用了多种优化技术,如 Rotary Embedding 的位置编码方法、SwiGLU 激活函数以及基于 RMSNorm 的 Pre-Normalization 层标准化操作。此外,模型的词嵌入层和输出 lm head 层参数分开,有助于增强训练的稳定性和收敛性。
该模型在多个评测中表现优异,例如在 C-Eval、MMLU、CMMLU、GSM8K 等多个数据集上取得了领先的成绩。它在逻辑推理、总结摘要、长文写作和数学计算等任务上的能力有显著提升,通用能力较 TeleChat 系列模型提升了超过29%。
TeleChat2-115B 模型的开源,标志着国产大模型训练的全国产化替代,进入了自主创新、安全可控的新阶段。开源地址包括 GitHub、Gitee、ModelScope 和 Modelers 等平台,供全球开发者和研究者免费访问和使用。
开源地址
GitHub:
https://github.com/Tele-AI/TeleChat2
Gitee:
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
https://modelers.cn/models/TeleAI/TeleChat2-115B