腾讯基于 Megatron-Core 和 SGLang/vLLM 研发了大模型训练库 WeChat-YATT(YATT,Yet Another Transformer Trainer),内部项目名为 gCore,专注于强化学习和多模态模型的训练,旨在提供易扩展、简洁、高效、可靠的大模型训练能力。
通过定制化的并行计算策略,其训练库能够处理大尺寸模型、长序列输入和大数据集场景,解决了微信中多个实际场景的痛点问题,显著提升了业务训练大模型的效率。此工具为研究人员和开发者提供了灵活且可扩展的解决方案,以推动多模态和强化学习领域的创新发展。
并提出 WeChat-YATT 训练库,解决了大模型分布式训练过程中面临的两大核心痛点:
WeChat-YATT 针对不同业务场景,支持了两种资源放置模式:全员共存与部分共存,以最大化提升集群的资源利用率。通过灵活的调度策略,WeChat-YATT 能够有效适应不同的训练需求和计算环境。
与此同时,WeChat-YATT 采用了 Parallel Controller 模式,由多个 Controller 协同管理数据任务,显著降低了单节点的内存压力,尤其为多模态训练场景提供了更优的系统支持,相较于传统的 Single Controller 架构具备更强的可靠性。
多元的资源放置模式和灵活的调度机制,使 WeChat-YATT 在复杂多变的实际环境下都能实现资源的高效利用,助力大模型在微信内部多个场景的应用落地。
评论删除后,数据将无法恢复
腾讯开源 WeChat-YATT:微信强化学习大模型训练库
腾讯基于 Megatron-Core 和 SGLang/vLLM 研发了大模型训练库 WeChat-YATT(YATT,Yet Another Transformer Trainer),内部项目名为 gCore,专注于强化学习和多模态模型的训练,旨在提供易扩展、简洁、高效、可靠的大模型训练能力。
通过定制化的并行计算策略,其训练库能够处理大尺寸模型、长序列输入和大数据集场景,解决了微信中多个实际场景的痛点问题,显著提升了业务训练大模型的效率。此工具为研究人员和开发者提供了灵活且可扩展的解决方案,以推动多模态和强化学习领域的创新发展。
并提出 WeChat-YATT 训练库,解决了大模型分布式训练过程中面临的两大核心痛点:
WeChat-YATT 针对不同业务场景,支持了两种资源放置模式:全员共存与部分共存,以最大化提升集群的资源利用率。通过灵活的调度策略,WeChat-YATT 能够有效适应不同的训练需求和计算环境。
与此同时,WeChat-YATT 采用了 Parallel Controller 模式,由多个 Controller 协同管理数据任务,显著降低了单节点的内存压力,尤其为多模态训练场景提供了更优的系统支持,相较于传统的 Single Controller 架构具备更强的可靠性。
多元的资源放置模式和灵活的调度机制,使 WeChat-YATT 在复杂多变的实际环境下都能实现资源的高效利用,助力大模型在微信内部多个场景的应用落地。
项目特点:
实验效果