中国大模型的算力问题解决了?
如果你在今年年初问秋香这个问题,秋香还觉得大概率不可能。毕竟国内AI芯片的能力和英伟达的差距还不小,短期内没法赶上。
但要不说历史是创造出来的,华为还真就把这个事情干成了。
今年四月,微博网友老师木的一句“虽然华为芯片单颗比起用英伟达还是有落差,但是组成系统后,效率明显就高了”直接炸开了锅,许多网友根本不相信。
到了六月,华为团队与老师木所在的硅基流动(Silicon Flow)联合署名的论文在 arXiv 上公开,详细阐述了如何在 CloudMatrix 384 超节点上部署 DeepSeek 大模型,给了网友们一点小小的震撼。
华为常务董事、华为云计算CEO张平安表示,基于CloudMatrix384超节点的新一代昇腾AI云服务,算力从单台服务器的6.4P flops提升到超节点服务器的300P flops,提升了50倍;单卡的吞吐量从600Tokens/s提升到2300 Tokens/s,与非超节点相比提升4倍。
秋香去对比了下,英伟达NVLink72平台的单节点算力为180PFLOPs。华为比英伟达要高出67%。也难怪今年5月,英伟达CEO黄仁勋公开表示,ClouldMatrix 384超节点的集群规模甚至超过了最新一代Grace Blackwell。
不过明明单卡的能力不如英伟达,华为云是怎么实现突破的呢?秋香研读了一下华为那篇论文,还找业内人士问了问,发现关键有两个。
一个是对等池化架构。
大模型像是人工智能爆发时代的一个需求怪兽,迅速吞噬着现代计算机的三个主要要素:计算,内存和网络,而传统的数据中心基础设施在许多方面很难满足这个需求。
简单举个例子,AI任务类型多样,训练、推理、数据预处理等对NPU、CPU、内存的资源需求各不相同。而固定配置的节点设计会让部分硬件“没活干”,从而导致资源的“短板效应”,整体资源利用率低。
用华为技术专家的话说就是,“超大规模MoE模型的训练就是一项复杂的系统工程,挑战很大,如果你深入下去就会发现到处是拥塞,很多是串行,到处是等待,很大情况是资源不匹配,还有一些则是重复计算或重复数据搬运,蕴藏着巨大的改进空间”。
这就给了华为超车的机会。
CloudMatrix384最核心的特点就是首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink全对等互联,形成一台超级“AI服务器”。这么做的好处是几乎抹平了跨节点通信的性能衰减,计算、内存和网络资源可以被动态汇聚、统一访问和独立扩展,减少数据局部约束性从而促进统一的资源池化和高效的工作负载编排。
如果说传统的数据中心基础设施就像一艘动力优秀但是无法全速前进的大船,那么CloudMatrix384超级节点可以被视为一个耦合更紧密、没有短板的舰艇。他虽然单个发动机不如前者,但是组合在一起却能跑出更好的效果。
第二个是“一卡一专家”的超节点部署。
DeepSeek的出现,标志着推理任务从单机跑推理任务,转变成分布式推理时代。啥意思呢,大模型在推理过程中,最核心的流程有两部分,Prefill(预填充),和Decode(解码)。想要推理效果更好,就要尽可能的完成prefill阶段的"高吞吐"和decode阶段的的"低时延"。
DeepSeek采用的MOE架构由多个专家模型组成,通过让最相关的专家模型处理相关需求,从而实现更大的批量处理能力——既能显著减少单卡的内存访问量,提升吞吐量,还能优化推理延迟。
那有没有更好的支持这种分布式推理的技术呢?最好的方法肯定是让每个专家都能有一张卡去处理数据。Deepseek有256个专家,如果采用一个专家一张卡的模式,大概需要352张卡。
这个方法的问题在于会带来巨大的通信开销,通信延迟不可控。但CloudMatrix 384超节点的对等池化架构,就解决了通信延迟的问题,从而实现每个昇腾NPU卡独立处理一个专家模型的推理任务,多个卡并行工作,大幅提升整体推理速度,单卡吞吐量可以达到2300 Tokens/s。
根据论文数据,在部署DeepSeek-R1 这类大规模 MoE 模型时,CloudMatrix384 在单卡吞吐量上,全面超越英伟达体系。
根据华为官方数据,对于万亿、十万亿参数的大模型训练任务,华为的云数据中心可以把432个超节点连在一起,形成一个16万卡的AI集群,提供十万P Flops算力,支持约1300个千亿参数的大模型同时做训练。这也意味着,未来即便面对更大规模的算力需求,华为都能提供服务。
现在,已经有越来越多的厂商开始基于CloudMatrix384昇腾AI云服务进行开发,并且拿到了不错的结果。
中科院基于CloudMatrix384昇腾AI云服务,打造了自己的模型训练框架,快速构建了中科院AI for Science科研大模型。新浪也基于CloudMatrix384昇腾AI云服务,为“智慧小浪”智能服务体系构建了统一的推理平台,推理的交付效率提升超过 50%,模型上线速度成倍加快。
秋香觉得,随着芯片制裁越来越严格,能不能把算力握在自己手里,对于大模型产业发展非常重要。华为的这波技术突破也意味着中美算力真正进入掰手腕阶段,你觉得呢?
免责声明:所有平台仅提供服务对接功能,资讯信息、数据资料来源于第三方,其中发布的文章、视频、数据仅代表内容发布者个人的观点,并不代表泡财经平台的观点,不构成任何投资建议,仅供参考,用户需独立做出投资决策,自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险,入市需谨慎。
请先登录后发表评论