在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一。近日,北京大学人工智能研究院助理教授张牧涵团队在鲲鹏昇腾科教创新卓越中心(简称“卓越中心”)提供的算力支持下,成功研发出一套高效的大模型训练推理架构,实现了百万tokens输入成本低至1元,为产业提供了高效能、低成本的解决方案。
此研究成果包括三项关键技术创新。首先,目前广泛使用的相对位置编码存在较大的稀疏性,团队通过将每个注意力头中的位置信息和非位置信息分离,对位置编码进行了低秩压缩,仅使用3%的位置信息,即可维持原有表达能力。该方法通过优化昇腾硬件的flash-attention算子,使得注意力头的参数得到更高效利用。
第二,非位置编码信息在原始模型中通常处于被抑制状态。通过将位置编码与非位置编码分离,非位置编码得到了较大的压缩空间。团队采用了联合KV的低秩压缩方法,仅保留12.5%的KV Cache即可维持原始模型的能力。这一方法能够有效利用昇腾硬件高效的计算能力,减轻访存压力,显著提升推理效率。
最后,基于昇腾硬件在出色的并行计算能力,团队实现的Recurrent Decoding(RD)技术通过替换LM-head提升了训练数据利用率并加速了推理。在训练阶段,RD通过将解码出的多个tokens与target tokens进行对比,实现了训练数据的高效利用;在推理阶段,结合投机推理显著提高了tokens的采样通过率,进而提升了推理速度。
这一成果得到了学术界的广泛关注,不仅为科研提供了可复用的高效架构,也为AI大模型在企业中的应用大幅降低了成本。自去年6月成立以来,北京大学与华为在产业前沿课题的联合攻关持续推进,本次成果验证了昇腾算力平台支撑尖端科研的技术实力。卓越中心将继续深入开展大模型关键技术创新,为构建中国技术生态提供坚实支撑。
责任编辑:kj005
在人工智能领域,大语言模型的训练与推理成本一直是限制技术普及的关键因素之一此研究成果包括三项关键技术创新第二,非位置编码信息在原始模型中通常处于被抑制状态最后,...
在厦门这座美丽的海滨城市,爱美的人们总是渴望通过隆鼻来提升自己的颜值。当提到隆鼻时,假体隆鼻和肋软骨隆鼻是两种常见的选择,那么究竟该如何抉择呢?今天,我们就来深...
引言:嚼酸奶作为近年来乳制品市场中新兴的细分品类,在保留酸奶顺滑口感的基础上,融入了咀嚼元素,使得食用过程更具趣味性与满足感2025年7月,尚普咨询集团向黑龙江...
在智能家居浪潮席卷而来的当下,电动窗帘凭借远程操控、智能联动等便捷特性,成为提升家居舒适度的重要选择,逐渐走进更多家庭的生活为消费者带来丰富多样的选择为帮助大家...
7月25日,瓦努阿图共和国副总理兼财政部长约翰尼・科纳坡率团访问中国香港特区政府,并在港举办瓦努阿图共和国国家资源推介会。瓦努阿图共和国人工智能科技顾问、云知声...
由阿里巴巴国际站主办的「好赚大会」于7月23日在深圳福田大中华喜来登酒店成功举办本次大会汇聚多位重量级嘉宾,深圳市商务局电商处处长于喜峰出席并致辞此外,阿里国际...
新国标实施前夕,雅迪再度收获央视唯一关注与认可新国标前夕央视权威认可雅迪 以龙头效应率先推进标准落地作为国内保有量最大的交通工具,电动自行车涉及亿万人日常出行,...