在追求极致效率与广泛兼容性的征途上,我们自豪地宣布——深度探索V3+R1精粹调优助手正式登场!这不仅是一次软件的迭代,更是对每一位探索者友好度的革命性提升。我们深知,在人工智能与深度学习的浩瀚领域,工具的易用性与对硬件的宽容度至关重要。因此,我们的团队不懈努力,实现了技术上的重大突破,使得这款强大的工具在保持高性能的同时,将对硬件的要求惊人地降低了90%。这意味着,无论是专业研究者还是入门级爱好者,都能以更低的成本,更便捷的方式,启动他们的创新之旅。一键启动的功能设计,让复杂的技术流程化繁为简,真正实现了从概念到实践的无缝衔接。这不仅仅是技术的胜利,更是普及智能学习,激发创新潜能的一大步。让我们一起,以前所未有的方式,深入知识的海洋,探索无限可能。
deepseekv3/r1风靡全网,其底层模型方案和api服务已广泛应用,但价格战和免费竞争也日益激烈。
如何充分利用现有资源,结合专业领域数据进行模型后训练(post-training),以低成本打造高质量的私有模型,从而提升业务竞争力和价值?
拥有近4万GitHubStar的Colossal-AI,现已推出开源大模型后训练工具箱,其核心功能包括:
DeepSeekV3/R1671B参数量模型的低成本监督微调(SFT); 完整的强化学习工具链,涵盖PPO、GRPO、DPO、SimPO等算法; 无缝兼容DeepSeek系列蒸馏模型及HuggingFace开源模型; 支持英伟达GPU、华为昇腾NPU等多种硬件平台; 支持混合精度训练、梯度检查点等加速技术,降低训练成本; 提供灵活的训练配置接口,支持自定义奖励函数和损失函数; 支持多种并行策略,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同规模的硬件资源。开源地址:
低成本微调DeepSeekV3/R1671B参数量模型
DeepSeekV3/R1拥有高达6710亿参数,如何低成本地进行微调?只需几个步骤即可完成:
数据集准备
该工具箱使用JSONL格式的数据集,例如:每行数据为一个对话列表,格式兼容HuggingFace聊天模板,并支持自定义系统提示。
模型权重准备
为获得最佳微调效果,建议使用BF16格式的权重。如已下载FP8权重,可使用DeepSeek官方脚本进行转换:
NVIDIAGPU: 华为昇腾NPU:使用方法
准备好数据集和模型权重后,使用Colossal-AI提供的一键启动脚本:
该脚本与常用的SFT脚本类似,并完全兼容HuggingFacePEFT。启动命令示例:
colossalairun--hostfilepath-to-host-file--nprocpernode8lorafinetune.py--pretrainedpath-to-DeepSeek-R1-bf16--datasetpath-to-dataset.jsonl--pluginmoe--lr2e-5--maxlength256-g--ep8--pp3--batchsize24--lorarank8--loraAlpha16--numepochs2--warmupsteps8--tensorboarddirlogs--save_dirDeepSeek-R1-bf16-lora登录后复制更多参数信息,请运行Pythonlora_finetune.py--help查看。训练过程中的学习率、损失函数和梯度范数等信息将通过TensorBoard记录。
LoRA优化硬件资源
通过LoRA等优化技术,该脚本将SFTDeepSeekV3/R1671B的最低硬件需求降低了近10倍,可在32个Ascend910BNPU64GB(ep=8,pp=4)或24个H100/H800GPU(ep=8,pp=3)上运行。启用cpuoffload(--zero_cpu_offload)可进一步降低硬件需求,但会影响训练速度。
下图展示了SFTDeepSeekV3/R1671B模型的损失函数下降曲线:
资源充足的团队可将并行度扩展至数百甚至数千卡,快速完成全参数微调或加速训练。
强化学习微调蒸馏版DeepSeek
Colossal-AI团队验证并实现了DeepSeek论文中的GRPO算法和可验证奖励机制,并使用Qwen2.5-3B-Base模型进行了实验。奖励函数设计如下:
正确格式:奖励=0 正确格式,错误结果:奖励=1 正确格式和结果:奖励=10Colossal-AI提供了用于验证GRPO的对话模板和设置(一键启动脚本:
下图显示了3B参数量模型在训练过程中平均奖励和回复长度的增长情况:
下图展示了模型在训练过程中自我纠正的示例:
Colossal-AI:高效的后训练工具箱
Colossal-AI致力于成为开发者易于使用的后训练工具,帮助用户基于开源模型,低成本快速构建私有模型。
开源地址:
以上就是DeepSeekV3+R1满血微调工具上线!一键启动,硬件要求降10倍的详细内容,更多请关注其它相关文章!