LlamaFactory Blog

LlamaFactory x MindSpore HyperParallel 社区协作路标

昇思社区 · HyperParallel 超节点并行库 文档版本:v1.0 | 更新日期:2026-03-30 项目愿景 HyperParallel 是 昇思社区 新提出的超节点并行训练架构,致力于简化昇腾超节点编程,释放算力潜能。我们希望协同 LlamaFactory 生态提供易用、高性能的分布式训练解决方案。我们的目标是让每一位开发者都能在 Ascend NPU 和 NVIDIA GPU 上高效训练大模型,降低大模型训练的门槛和成本。 本路线图概述了 LlamaFactory 与 MindSpore HyperParallel 社区协作的发展方向,涵盖并行能力扩展、硬件优化、后端支持等多个维度。 路线图总览 1 2 3 4 5 6 7 8 9 10 11 2026 Q2 2026 Q3 2026 Q4 │ │ │ ▼ ▼ ▼ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Phase 1 │ │ Phase 2 │ │ Phase 3 │ │ 能力扩展 │ ───► │ 硬件深化 │ ───► │ 后端多元 │ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ ├─ TP/EP/CP混合并行 ├─ 高维TP等优化 ├─ MindSpore后端扩展 ├─ 更多模型泛化 ├─ HyperMPMD三层并行 ├─ 图算融合组件优化 └─ 更大模型规模 └─ HyperOffload UD链卸载 └─ 更多训练阶段支持 Phase 1: 并行能力扩展 (2026 Q2) 目标:扩展 TP(张量并行)/EP(专家并行)/CP(上下文并行)等多维混合并行能力,支持更大规模模型训练。 特性 描述 优先级 状态 TP-EP 混合并行 支持 MoE 模型的 TP+EP 组合并行策略 P0 验证中 CP 长序列支持 支持上下文并行,突破显存限制训练超长序列 P0 验证中 3D 并行 (DP-TP-PP) 完整的三维混合并行支持,适配千亿级参数模型 P1 验证中 昇腾亲和Offload策略 提供NPU亲和的多级智能显存卸载策略 P2 开发中 技术要点: ...

2026年3月30日 · 2 分钟 · 399 字 · hiyouga

使用 MindSpore HyperParallel 在昇腾上进行 LlamaFactory FSDP2 训练

LlamaFactory + MindSpore HyperParallel 我们将 MindSpore 社区的并行训练 HyperParallel 作为 FSDP2 后端集成到 LlamaFactory,支持昇腾 NPU 和 NVIDIA GPU,用户只需在 FSDP2 工作流上添加一行配置即可启用。 快速开始 1. 环境安装 pip 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # 安装 HyperParallel git clone https://gitcode.com/mindspore/hyper-parallel cd hyper-parallel pip install -e . # 安装 LlamaFactory git clone https://github.com/hiyouga/LlamaFactory.git cd LlamaFactory pip install -e ".[torch,metrics]" --no-build-isolation # 安装 PyTorch pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 # 可选:安装 torch-npu 以支持昇腾 NPU pip install torch-npu==2.7.1 2. 配置 HyperParallel 训练需要两个配置文件:Accelerate FSDP2 配置和 LlamaFactory 训练配置。 ...

2026年3月24日 · 2 分钟 · 383 字 · LlamaFactory Team

使用 LlamaFactory 微调最新一代 Qwen3.5 模型辨别人形机器人型号

2026年伊始,从美国拉斯维加斯消费电子展(CES)到中国春晚,中国自主研发的人形机器人频频“破圈”,多家中国企业的产品和应用不仅在海外业界引发热议,更是在全球社交媒体平台和国际媒体不断“刷屏”。具身智能,被视为人工智能发展的下一阶段,其核心在于实现智能“大脑”与物理“身体”的深度耦合,从而将数据、算法与算力直接转化为改造客观世界的行动能力。而人形机器人,因其与人类相似的外形和功能,被视为具身智能的高阶形态和最佳载体,有望成为继智能手机、新能源汽车之后的新一代超级终端。 LlamaFactory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架之一,GitHub 星标将近 7 万。 通义千问团队开源了新一代多模态大模型 Qwen3.5,本教程将聚焦于如何利用开源的 Qwen3.5-9B 模型,借助 LlamaFactory 这一开源低代码大模型微调框架,针对“辨别人形机器人型号”这一具体任务进行微调。我们希望通过这一实践,展示轻量化大模型如何赋能具身智能应用,让机器人不仅“看得见”,更能“看得懂”,从而为这场正在席卷全球的智能革命,贡献一份来自开源社区的实践力量。 运行环境要求 建议 GPU 显存不低于 32 GB 1. 安装 LlamaFactory 拉取 LlamaFactory 到本地 1 2 git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git cd LlamaFactory 安装 LlamaFactory 环境依赖 1 pip install -e . [可选] 可以安装 flash-linear-attention 获得训练推理加速效果。推荐使用源码安装方式,不推荐使用 PyPI 安装,可能会导致性能衰退,安装命令如下: 1 2 # uninstall both packages first to ensure a successful upgrade pip uninstall fla-core flash-linear-attention -y && pip install -U git+https://github.com/fla-org/flash-linear-attention 运行如下命令,如果显示 LlamaFactory 的版本,则表示安装成功。 ...

2026年3月3日 · 2 分钟 · 357 字 · hiyouga

Qwen3-VL 模型相关问题

这篇博客关注 Qwen3-VL 模型的几个小问题,并给出相应的问题原因和解决办法。 1 Qwen3-VL 模型训练推理速度慢 问题:一些帖子和 issues 提到,在 torch=2.9 并且使用 Conv3D 的情况下,Qwen3-VL 的训练推理速度相较于 torch=2.8 有大幅退化,参考 https://github.com/pytorch/pytorch/issues/166122 。 1.1 检查 kernel 调用区别 首先分别在 torch=2.8 和 torch=2.9 两个版本下测试了 Conv3D 的 cuda 调用,测试代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 import torch import torch.nn as nn class Glm4vVisionPatchEmbed(nn.Module): def __init__( self, patch_size: int = 14, temporal_patch_size: int = 1, in_channels: int = 3, hidden_size: int = 1536, ) -> None: super().__init__() self.patch_size = patch_size self.temporal_patch_size = temporal_patch_size self.hidden_size = hidden_size kernel_size = (temporal_patch_size, patch_size, patch_size) self.proj = nn.Conv3d( in_channels, hidden_size, kernel_size=kernel_size, stride=kernel_size, bias=True, ) def forward(self, x: torch.Tensor) -> torch.Tensor: L, C = x.shape x = x.view(L, -1, self.temporal_patch_size, self.patch_size, self.patch_size) x = self.proj(x).view(L, self.hidden_size) return x net = Glm4vVisionPatchEmbed( patch_size=14, temporal_patch_size=2, in_channels=3, hidden_size=1536, ) net = net.to('cuda').bfloat16() x = torch.randn(8192, 14 * 14 * 3 * 2).to('cuda').bfloat16() y = net(x) print(y.shape) with torch.cuda.nvtx.range("Glm4vVisionPatchEmbed"): y = net(x) torch.cuda.synchronize() 执行如下命令,可以得到 cuda 内核调用信息 ...

2026年1月5日 · 2 分钟 · 294 字 · hiyouga

KTransformers 联合 LLaMA-Factory 进行 RL-DPO 训练

本教程演示了如何使用 LLaMA-Factory 框架,通过直接偏好优化(Direct Preference Optimization,DPO) 对语言模型进行微调。DPO 是一种基于人类偏好来训练模型的方法,能够使模型输出更加对齐人类期望,更加以用户为中心。 1 环境配置 软硬件要求:CPU 支持 AMX,系统的 glibc 版本大于等于 2.32,建议 GPU 显存大于等于 32G。 Step 1: 创建 KTransformers 的 conda 环境 1 2 3 4 conda create -n Kllama python=3.12 # choose from : [3.11, 3.12, 3.13] conda activate Kllama conda install -y -c conda-forge libstdcxx-ng gcc_impl_linux-64 conda install -y -c nvidia/label/cuda-12.8.0 cuda-runtime Step 2: 安装 LLaMA-Factory 1 2 3 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]" --no-build-isolation Step 3: 安装 KTransformers Option 1: 从 https://github.com/kvcache-ai/ktransformers/releases/tag/v0.4.4 下载并安装与 Torch 和 Python 版本相匹配的 KTransformers wheel 包。 ...

2025年12月23日 · 3 分钟 · 566 字 · hiyouga