您当前所在位置：主页 > 从业商会

推理效率拉满！昇腾算力优化，还在用老并行方式？

发布时间：2025-06-06 17:08|栏目：从业商会 |浏览次数：

行业普遍面临大模型推理性能的难题，如今却迎来了令人鼓舞的突破。经过一系列的革新与改进，推理速度显著提高。这其中的奥秘究竟是什么？我们不妨深入探究一番。

_生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘_生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘

H2P策略显奇效

H2P策略运用“针对不同事情召开不同会议”的巧妙分工模式，确保每个模块都能在最适合的并行状态下发挥最大潜能。这种方式摒弃了以往“一锅煮”的并行模式限制，成功突破了性能瓶颈。在实际应用中，其效果显著，Decode的吞吐量比纯TP方案提高了33.1%，推理效率得到了大幅提升。

生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘__生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘

TopoComm优化通信

团队针对提升会议效率这一目标，精心设计了TopoComm的优化方案，效果显著！在通信过程中，会前的准备工作属于静态成本，而会议中的发言则涉及数据传输。此方案对各个环节进行了全面优化，使得数据传输更加迅速和清晰，从而大幅提升了通信效率。

融合策略破瓶颈

华为团队针对Pangu Pro MoE模型的通信挑战，研发了GMMRS和AGMM两种融合技术。原本通信、数据传输与计算之间如同存在一道屏障，这两种策略成功将其拆除，确保了关键通信路径的连续性。在昇腾平台上，该模型的推理能力得到了显著增强；同时，“边讨论边行动”的工作模式促进了任务的协同，显著提高了推理效率。

_生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘_生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘

算子优化促流水

算子在增量推理环节的优化技术堪称巧妙。我们采用了KV大包连续搬运的优化策略，显著提升了访存带宽的利用率。同时，结合左矩阵的单次加载和常驻方案，以及双缓存技术，数据传输和计算过程实现了高效的流水作业。试想一下，原本可能出现的卡顿现象，现在变得如此流畅，宛如行云流水，真是令人赞叹不已。

生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘__生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘

多场景适配高效

推理系统在性能上的较量涉及多个层面，不能仅以单个模型为评判标准，还需综合评估输入输出等方面。昇腾800I A2在这方面表现十分出色。在解码环节，采用四卡配置能在低并发情况下实现低延迟的响应，而在高并发环境中则能实现高吞吐量。此外，通过MTP技术的融合，单卡性能得到显著提升，使得模型推理的潜力得到了充分释放。

生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘_生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘_

软硬协同建底座

系统级优化至高性能算子，每一环节均展现了软硬件结合的卓越成果。这一过程宛如一场接力赛，环环相扣。正是通过这种层层递进的突破，我们构筑了高效、大规模且成本低的推理能力基础。凭借这一基础汝州市政务服务网，我们对未来大模型推理的发展前景充满期待。

阅读完毕后，大家是否对昇腾平台上大型模型推理所展现的卓越性能感到激动？你觉得在未来的大模型推理优化中，有哪些领域值得我们特别关注？请不要忘记点赞并转发这篇文章，让更多的人能够接触到这些令人兴奋的技术内容。

生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘_生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘_

上一篇：曾不看格力工资条的王自如再创业选AI，真能来钱快？

下一篇：新消费概念股疯涨之际，潮宏基二股东为何突然要减持4.1亿？

推理效率拉满！昇腾算力优化，还在用老并行方式？

扫一扫关注于我们