点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:浪潮信息发布“源2.0-M32”开源大模型
首页> 科技频道> 人工智能 > 正文

浪潮信息发布“源2.0-M32”开源大模型

来源:光明网2024-05-29 14:58

  5月28日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。

  在算法层面,源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

  在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。结合高效的数据清洗流程,满足大模型训练“丰富性、全面性、高质量”的数据集需求。基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、代码推理、数学求解等方面有着出色的表现。

  在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MOE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

  基于在算法、数据和算力方面全面创新,源2.0-M32的性能得以大幅提升,在多个业界主流的评测任务中,展示出了较为先进的能力表现,在MATH(数学竞赛)、ARC-C(科学推理)榜单上超越了拥有700亿参数的LLaMA3大模型。

  源2.0-M32大幅提升了模型算力效率,在实现与业界领先开源大模型性能相当的同时,显著降低了在模型训练、微调和推理所需的算力开销。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了和700亿参数LLaMA3相当的性能水平,而所消耗算力仅为LLaMA3的1/19,从而实现了更高的模算效率。

  浪潮信息人工智能首席科学家吴韶华表示:当前业界大模型在性能不断提升的同时,也面临着所消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。源2.0-M32是浪潮信息在大模型领域持续耕耘的最新探索成果,通过在算法、数据、算力等方面的全面创新,M32不仅可以提供与业界领先开源大模型相当的性能,更可以大幅降低大模型所需算力消耗。大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。M32开源大模型配合企业大模型开发平台EPAI(Enterprise Platform of AI),将助力企业实现更快的技术迭代与高效的应用落地,为人工智能产业的发展提供坚实的底座和成长的土壤,加速产业智能化进程。

  据悉,源2.0-M32将持续采用全面开源策略,全系列模型参数和代码均可免费下载使用。(柯岩)

[ 责编:战钊 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 西安古城墙吸引游人

  • 西渝高铁康渝段刘家坝隧道贯通

独家策划

推荐阅读
第137届广交会第三期“美好生活”5月1日开幕,12043家企业参展。
2025-05-01 17:55
BEST装置,紧凑型全超导托卡马克核聚变实验装置。
2025-05-01 17:52
杨永修有多个头衔,“全国五一劳动奖章”获得者、“中国青年五四奖章”获得者、全国技术能手、中国一汽首席技能大师……五一前夕,他被授予“全国劳动模范”荣誉称号。
2025-05-01 17:41
“当患者因我们的药多了一份生活的希望,那所有辛苦的日夜就有了意义。”贝达药业股份有限公司质量工程师高娅琴在接受采访时说道。
2025-05-01 17:40
21世纪初始,随着城镇化的发展,全国各地的建筑高度被一再打破。如何在保证超高建筑结构安全的同时提高建造效率,成为业界亟待破解的难题。
2025-05-01 17:32
美国的政策变化不仅影响本国科研,也导致许多国际科研项目中断或面临中断风险,对全球科研合作造成重大伤害。
2025-05-01 17:28
“对服装面料而言,防水和透气本是矛盾体,但我们采用高分子膜贴合技术,做到了既防水又透气。包括上述小程序在内,柯桥织造印染产业大脑已集成190多个应用,入驻企业4000多家,注册工程师11万多人,接入生产核心设备3万多台套。
2025-04-30 09:00
轻舟,顾名思义,以个头小、重量轻为最大特点。轻舟货运飞船副总设计师吴会英告诉记者,轻舟重量约5吨,目前的上行运力为1.8吨以上,下行为2吨。装载容积约9立方米,货物舱的体积为27立方米,可搭载航天员生活物资、科学实验设备、科学载荷等。
2025-04-30 05:10
4月29日4时10分,我国在文昌航天发射场使用长征五号乙运载火箭/远征二号上面级,成功将卫星互联网低轨03组卫星发射升空,卫星顺利进入预定轨道,发射任务获得圆满成功。
2025-04-30 05:10
近日,我国天都一号通导技术试验星成功完成白天强光干扰条件下的地月空间激光测距技术试验,在国际上首次打破地月空间卫星激光测距仅能在夜晚作业的时间限制,标志着我国在深空轨道精密测量领域取得技术新突破。
2025-04-30 05:10
搭载该模型的AI手机、智能屏幕、陪伴机器人“AI智伴小熊”等产品,为用户带来更加个性化、智能化的生活体验。
2025-04-30 09:04
(夏婷,中国科协创新战略研究院创新环境研究所副所长、副研究员)
2025-04-29 12:58
北京正推进“超高清入户行动”,推进有线电视超高清机顶盒全面置换,“计划于6月底完成标清机顶盒的置换目标”。
2025-04-29 09:10
脂肪组织中隐藏着一群脂肪细胞祖细胞,它们负责制造新的脂肪细胞。更令人惊讶的是,随着年龄的增长,APC还会进化成一种更为强大的“超级工匠”——年龄特异性定型前脂肪细胞(CP-A)。
2025-04-29 09:51
近日,中国农业科学院农业质量标准与检测技术研究所(以下简称“质标所”)农业环境污染物研究室成功研发出全球首套面源污染智能监测系统。
2025-04-29 09:50
一位老人站在秧田里,大喊一声“拔秧哦”,弯腰拔起第一把秧苗。众人齐声应和,大声喊:“风调雨顺,五谷丰登。”秧田里,一排人将秧苗拔起,担到打过格子的稻田里,整整齐齐插好。
2025-04-29 06:30
2024年,全国生态环境质量持续改善,环境安全形势保持稳定,公众生态环境满意度达91.24%,连续4年超过90%。
2025-04-29 09:07
把青春奋斗融入党和人民事业,青春才会绽放绚丽光彩。
2025-04-29 09:28
加载更多