使用 LlamaFactory 微调最新一代 Qwen3.5 模型辨别人形机器人型号
2026年伊始,从美国拉斯维加斯消费电子展(CES)到中国春晚,中国自主研发的人形机器人频频“破圈”,多家中国企业的产品和应用不仅在海外业界引发热议,更是在全球社交媒体平台和国际媒体不断“刷屏”。具身智能,被视为人工智能发展的下一阶段,其核心在于实现智能“大脑”与物理“身体”的深度耦合,从而将数据、算法与算力直接转化为改造客观世界的行动能力。而人形机器人,因其与人类相似的外形和功能,被视为具身智能的高阶形态和最佳载体,有望成为继智能手机、新能源汽车之后的新一代超级终端。 LlamaFactory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架之一,GitHub 星标将近 7 万。 通义千问团队开源了新一代多模态大模型 Qwen3.5,本教程将聚焦于如何利用开源的 Qwen3.5-9B 模型,借助 LlamaFactory 这一开源低代码大模型微调框架,针对“辨别人形机器人型号”这一具体任务进行微调。我们希望通过这一实践,展示轻量化大模型如何赋能具身智能应用,让机器人不仅“看得见”,更能“看得懂”,从而为这场正在席卷全球的智能革命,贡献一份来自开源社区的实践力量。 运行环境要求 建议 GPU 显存不低于 32 GB 1. 安装 LlamaFactory 拉取 LlamaFactory 到本地 1 2 git clone --depth 1 https://github.com/hiyouga/LlamaFactory.git cd LlamaFactory 安装 LlamaFactory 环境依赖 1 pip install -e . 运行如下命令,如果显示 LlamaFactory 的版本,则表示安装成功。 1 llamafactory-cli version 2. 准备数据集 Manus 是一款专注于复杂任务执行的通用型 AI 智能体,能够从规划到执行自主完成端到端的任务。我们使用 Manus 自动化构建数据爬取的工作流,相比于传统的写爬虫脚本等方法非常高效。例如可以使用如下的 prompt 完成数据集的获取: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 我想微调一个能识别所有2026年春晚出现人形机器人型号的 Qwen3.5 模型,我希望你给我生成一个自动化数据集爬取的工作流,爬取2026年马年春晚的机器人以及国内和国外常见的人型机器人的图片及其型号,制造商等等一些描述信息,然后最终给我一个格式如下的 json 数据集: [ { "messages": [ { "role": "user", "content": "<image>请识别并描述图片中的机器人及其特征,特别注意其型号、生产商及应用场景。" }, { "role": "assistant", "content": "图片展示了由 宇树科技 (Unitree Robotics) 生产的 Unitree H1 机器人。搭载了先进的视觉和深度传感器系统,使其具备强大的环境感知能力,能够实时构建三维地图,实现自主导航和障碍物规避。" } ], "images": [ "images/unitree_h1_5.png" ] }, ... ] 我希望每个机器人图片对应一个问题和回答(一条数据),且user的问题和assistant的回答不单调,尽管机器人型号一样,我也希望问题和回答有多样性。 最终我希望得到的数据集至少有200张机器人图片,给我一个中文版的的json格式数据集和一个英文版的json格式数据集,还有数据集对应的图片文件。 本教程提供了一份多轮对话数据集,链接为:mllm_robot.zip。数据集中的样本为单轮对话形式,含有 405 条样本,每条样本都由一条用户指令和一条模型回答组成,微调过程中模型不断学习样本中的回答风格,从而达到识别机器人的目的。数据样例如下所示: ...