华为揭秘国产算力+国产模型全流程自主可控训练实践

大象新闻记者 李莉 杨文丽

近日,华为在MoE模型训练领域再进一步,推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细节。

据悉,训练超大规模和极高稀疏性的 MoE 模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功在昇腾平台上实现了准万亿 MoE 模型的全流程训练。

此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性能,可媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。

网站来源于网络。发布者:中青网,转转请注明出处:https://www.yxjz.org.cn/13773.html

(0)
中青网的头像中青网
上一篇 2025年5月30日 下午5:29
下一篇 2025年5月31日 上午11:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注