Megatron-Core Fine-Tuning with LLaMA-Factory

LLaMA-Factory 🤝 MCoreAdapter 为充分利用 Megatron-core 的并行技术并提高 MoE 模型的训练效率,我们将 ROLL 团队 提供的 MCoreAdapter 与 LLaMA-Factory 的数据链路及 Megatron Trainer 的训练后端相结合,构建了一个新的模型训练工作流。 🚀 快速开始 1. 💻 环境安装 📦 pip 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 # for megatron-core pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124 pip install \ numpy==1.26.4 \ optree>=0.13.0 \ spacy==3.7.5 \ weasel==0.4.1 \ transformer-engine[pytorch]==2.2.0 \ megatron-core==0.13.0 \ deepspeed==0.16.4 pip uninstall -y opencv opencv-python opencv-python-headless pip install opencv-python-headless==4.11.0.86 pip install "git+https://github.com/alibaba/roll.git#subdirectory=mcore_adapter" # for llamafactory git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]" --no-build-isolation 🐳 docker (推荐) 参考 Dockerfile 进行构建。 ...

2025年10月21日 · 3 分钟 · 616 字 · LLaMA-Factory Team

Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识

1 引言 Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。支持使用 OpenAI、DeepSeek、火山引擎等大模型 API 和 Ollama 本地模型调用。 LLaMA Factory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区最热门的微调框架之一,GitHub 星标超过 6.3 万。支持全量微调、LoRA 微调、以及 SFT 和 DPO 等微调算法。 本教程使用 Easy Dataset 从五家互联网公司的公开财报构建 SFT 微调数据,并使用 LLaMA Factory 微调 Qwen2.5-3B-Instruct 模型,使微调后的模型能学习到财报数据集中的知识。 2 运行环境要求 GPU 显存:大于等于 12 GB CUDA 版本:高于 11.6 Python 版本:3.10 3​ ​使用 Easy Dataset 生成微调数据 3.1 安装 Easy Dataset 方法一:使用安装包 如果操作系统为 Windows、Mac 或 ARM 架构的 Unix 系统,可以直接前往 Easy Dataset 仓库下载安装包:https://github.com/ConardLi/easy-dataset/releases/latest 方法二:使用 Dockerfile 1.从 GitHub 拉取 Easy Dataset 仓库 ...

2025年4月3日 · 3 分钟 · 445 字 · hiyouga