LlamaFactory Blog

KTransformers 微调 × LLaMA-Factory 集成引言从 DeepSeek-V3/R1 到 Qwen3-MoE 和 Kimi-K2，每一次超大模型的开源都带来性能与规模上的巨大跃升。然而，多数研究者与开发者受限于昂贵的显卡与动辄数千亿参数的模型，难以在资源受限条件下微调超大模型。面对这种差距，我们提出了一种更具可行性的方案：通过 KTransformers 与 LLaMA-Factory 的结合，仅需 2~4 张 RTX 4090 与较高内存 CPU，便可微调 DeepSeek-671B 等超大规模的 MoE 模型。该架构的核心目标是为资源受限下的研究者提供在本地探索超大规模模型微调的可能性。同时，也在较小规模（如 14B/30B）提供快速定制特定场景的路径。我们以风格化对话、西式腔调翻译、医学问答作为代表任务，验证架构的可行性，并展示在数小时内达成个性化适配的可操作性。如下图所示，LLaMA-Factory 是整个微调流程的统一调度与配置框架，负责数据处理、训练调度、LoRA 插入与推理接口管理； KTransformers 则作为其可插拔的高性能后端，在相同的训练配置下接管 Attention / MoE 等核心算子，实现异构设备（GPU+CPU）的高效协同。我们在 LLaMA-Factory 框架下，对比评测了 HuggingFace、Unsloth、KTransformers 三种后端的 LoRA 微调方案。结果显示，KTransformers 为超大规模的 MoE 模型（671B 等）提供了4090 级别的唯一可行方案，并在较小规模的 MoE 模型（DeepSeek-14B）上面也展现了更高的吞吐和更低的显存占用。 Under LoRA (BF16) + NekoQA-10K 风格化对话数据集 HuggingFace Backend Unsloth Backend KTransformers Backend [14B-DeepSeekV2-Lite] LoRA fine-tuning 吞吐量 303.58 token/s 455.37 token/s 530.38 token/s [14B-DeepSeekV2-Lite] GPU memory 32.12 GB 9.64 GB 6.08 GB [671B-DeepSeekV3] LoRA fine-tuning 吞吐量 OOM 尚未支持 40.35 token/s [671B-DeepSeekV3] GPU memory（共计）理论值 1400 GB † 尚未支持 70 GB † † 1400 GB 为理论显存（BF16 全参数常驻，非可运行配置）；70 GB 为 KT 策略（Attention 驻 GPU + MoE 分层 offload）下的实测峰值。 ...

LLaMA-Factory 🤝 MCoreAdapter 为充分利用 Megatron-core 的并行技术并提高 MoE 模型的训练效率，我们将 ROLL 团队提供的 MCoreAdapter 与 LLaMA-Factory 的数据链路及 Megatron Trainer 的训练后端相结合，构建了一个新的模型训练工作流。 🚀 快速开始 1. 💻 环境安装 📦 pip 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # for megatron-core pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124 pip install \ numpy==1.26.4 \ optree>=0.13.0 \ spacy==3.7.5 \ weasel==0.4.1 \ transformer-engine[pytorch]==2.2.0 \ megatron-core==0.13.0 \ deepspeed==0.16.4 pip uninstall -y opencv opencv-python opencv-python-headless pip install opencv-python-headless==4.11.0.86 pip install "git+https://github.com/alibaba/roll.git#subdirectory=mcore_adapter" # for llamafactory git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]" --no-build-isolation 🐳 docker (推荐) 参考 Dockerfile 进行构建。 ...