昇思社区 · HyperParallel 超节点并行库

文档版本:v1.0 | 更新日期:2026-03-30

项目愿景

HyperParallel 是 昇思社区 新提出的超节点并行训练架构,致力于简化昇腾超节点编程,释放算力潜能。我们希望协同 LlamaFactory 生态提供易用、高性能的分布式训练解决方案。我们的目标是让每一位开发者都能在 Ascend NPU 和 NVIDIA GPU 上高效训练大模型,降低大模型训练的门槛和成本。

本路线图概述了 LlamaFactory 与 MindSpore HyperParallel 社区协作的发展方向,涵盖并行能力扩展、硬件优化、后端支持等多个维度。

路线图总览

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
2026 Q2                    2026 Q3                    2026 Q4
                                                        
                                                        
┌─────────────┐          ┌─────────────┐          ┌─────────────┐
  Phase 1                Phase 2                Phase 3    
  能力扩展       ───►     硬件深化        ───►     后端多元    
└─────────────┘          └─────────────┘          └─────────────┘
                                                        
    ├─ TP/EP/CP混合并行         ├─ 高维TP等优化              ├─ MindSpore后端扩展
    ├─ 更多模型泛化              ├─ HyperMPMD三层并行        ├─ 图算融合组件优化
    └─ 更大模型规模              └─ HyperOffload UD链卸载    └─ 更多训练阶段支持

Phase 1: 并行能力扩展 (2026 Q2)

目标:扩展 TP(张量并行)/EP(专家并行)/CP(上下文并行)等多维混合并行能力,支持更大规模模型训练。

特性描述优先级状态
TP-EP 混合并行支持 MoE 模型的 TP+EP 组合并行策略P0验证中
CP 长序列支持支持上下文并行,突破显存限制训练超长序列P0验证中
3D 并行 (DP-TP-PP)完整的三维混合并行支持,适配千亿级参数模型P1验证中
昇腾亲和Offload策略提供NPU亲和的多级智能显存卸载策略P2开发中

技术要点

  • 统一的声明式并行策略配置接口
  • 高效的通信原语和调度算法
  • 昇腾亲和的并行和显存策略

Phase 2: 昇腾硬件深度优化 (2026 Q3)

2.1 高维张量并行 (High-Dimensional TP)

目标:扩展高维 TP 等昇腾亲和并行特性,提升 Atlas A5/A3/A2 上训练的效率和泛化性。

特性描述硬件适配预期收益
2D-TP双维张量并行,降低通信开销;TP 规模越大(≥8)收益越显著A5/A3通信量减少 30%+(TP≥8 时更优)
TP-PP 混合TP+流水线并行组合A5/A3/A2显存优化 20%+

:高维 TP 的通信优化效果随 TP 并行度增大而愈加明显——当 TP≥8 时,传统 1D-TP 的 All-Reduce 通信量已成为显著瓶颈,2D-TP 通过将通信拆分到两个维度,通信量较 1D-TP 降低幅度可超过 40%。

2.2 MPMD 多核并行优化 (HyperMPMD)

目标:通过细粒度 MPMD(Multiple Program Multiple Data)并行,解决 MoE、多模态、强化学习等场景中的计算负载不均衡问题,充分利用昇腾超节点对等互联架构的协同能力。

HyperMPMD 在三个维度上提供 MPMD 能力:

维度一:子模型内核级并发

利用昇腾 NPU 片上 AICube/AIVector 多核异构特性,在单卡内实现计算与通信的细粒度流水编排,解决 MoE 架构的通信掩盖难题。

特性描述硬件适配预期收益
片内多核 MPMDAICube 负责矩阵运算,AIVector 负责通信前处理,两者并行流水A5/A3通信掩盖率从 60% 提升至 90%

维度二:子模型间并发均衡(Inter-sub-model Concurrency Balancing)

将模型中异构子模块(如多模态模型的文本/图像/音频编码器)解耦为独立并发子图任务,通过动态调度消除流水线气泡。

维度三:跨模型并发调度(Cross-model Concurrent Scheduling)

集成 MPMD 运行时的 Single Controller 模式,在超节点池化算力资源中实现模型级并发,适配强化学习的异步架构。

预估收益

  • 通信掩盖率从 60% → 90%
  • 消除多模态/MoE 场景 10-40% 流水线气泡
  • 整体训练性能提升约 15%,集群资源利用率提升 15%+

2.3 智能显存卸载 (HyperOffload)

目标:基于 Use-Definition(UD)链分析,将远端内存访问提升为计算图中的一等操作,实现确定性的全局显存规划与计算-通信重叠,充分释放超节点分层存储池的潜力。

技术方案:HyperOffload 基于编译器的 Use-Definition 链对张量的定义点(Definition)与使用点(Use)进行全局生命周期分析,精确识别每个张量的最佳卸载/预取时机。突破了以往只针对权重(Weights)卸载的局限,实现了对训练推理全流程中 KV Cache、中间激活值(Activations)及优化器状态的深度分层管理。通过 UD 链驱动的统一逻辑视图,根据硬件拓扑自动感知 HBM 和 DDR 的带宽差异,将海量张量跨介质无缝调度。

预估收益(基于 HyperOffload 论文实验数据):

训练场景

模型硬件配置基线+ HyperOffload性能变化
LLaMA-8B8×Ascend 910C5.2s/step4.08s/step提升 ~20%
DeepSeek-V38×Ascend 910C2.5s/step2.19s/step提升 ~12%

Phase 3: MindSpore 后端支持 (2026 Q4)

目标:LlamaFactory 官方支持 MindSpore 后端,使能 AKG、DVM 等 MindSpore 独有的深度图算融合优化能力,进一步释放昇腾 NPU 算力。

社区协作计划

与 LlamaFactory 社区的协作

协作领域具体内容负责方
代码集成LlamaFactory 官方支持 MindSpore 后端,集成 HyperParallel 并行能力共建
文档共建在 LlamaFactory 官方文档中增加 MindSpore 后端使用指南共建
Issue 处理建立联合 Issue 处理机制共建
版本同步确保 HyperParallel 与 LlamaFactory 版本兼容性共建

联系我们

附录:术语表

术语全称描述
TPTensor Parallelism张量并行
EPExpert Parallelism专家并行
CPContext Parallelism长序列并行
DPData Parallelism数据并行
PPPipeline Parallelism流水线并行
FSDPFully Sharded Data Parallel全分片数据并行
SPMDSingle Program Multiple Data单程序多数据并行
MPMDMultiple Program Multiple Data多程序多数据并行
HCCLHuawei Collective Communication Library华为集合通信库