ArchScale:微软推出的神经架构预训练一站式工具,专注架构设计与规模规律研

爱生活爱珂珂 2025-07-19 09:38:42

ArchScale:微软推出的神经架构预训练一站式工具,专注架构设计与规模规律研究,助力大规模语言模型训练与评估。

• 多样架构支持:Transformer、SSM、YOCO、差分注意力、Decoder-Hybrid-Decoder等前沿模型。

• 规模规律:集成μP++、μP、Chinchilla FLOPs等多种扩展比例定律,支持批量大小、权重衰减等参数实验。

• 优化器丰富:Muon、AdamW、混合优化器,灵活适配不同训练需求。

• 高性能训练:torch.compile加速,Lightning Fabric支持FSDP分布式训练,混合精度及实验性FP8并行。

• 灵活训练设计:支持数据混合、预分词打包、长上下文变长序列训练及大词表稳定训练。

• 全面评估方案:涵盖语言理解基准、长上下文(RULER、Phonebook)、推理任务,配合vLLM多GPU推理。

• 易用与可扩展:Docker环境,模块化代码,方便添加新架构、调度、初始化,实验日志直观。

• 开源MIT许可,社区活跃,支持大规模参数调优及多GPU训练脚本示例。

适合神经网络架构研究、模型预训练及扩展实验的专业平台。

了解详情🔗 github.com/microsoft/ArchScale

深度学习 神经网络 语言模型 预训练 模型架构 AI研究

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注