ArchScale：微软推出的神经架构预训练一站式工具，专注架构设计与规模规律研

爱生活爱珂珂 2025-07-19 09:38:42

ArchScale：微软推出的神经架构预训练一站式工具，专注架构设计与规模规律研究，助力大规模语言模型训练与评估。

• 多样架构支持：Transformer、SSM、YOCO、差分注意力、Decoder-Hybrid-Decoder等前沿模型。

• 规模规律：集成μP++、μP、Chinchilla FLOPs等多种扩展比例定律，支持批量大小、权重衰减等参数实验。

• 优化器丰富：Muon、AdamW、混合优化器，灵活适配不同训练需求。

• 高性能训练：torch.compile加速，Lightning Fabric支持FSDP分布式训练，混合精度及实验性FP8并行。

• 灵活训练设计：支持数据混合、预分词打包、长上下文变长序列训练及大词表稳定训练。

• 全面评估方案：涵盖语言理解基准、长上下文（RULER、Phonebook）、推理任务，配合vLLM多GPU推理。

• 易用与可扩展：Docker环境，模块化代码，方便添加新架构、调度、初始化，实验日志直观。

• 开源MIT许可，社区活跃，支持大规模参数调优及多GPU训练脚本示例。

适合神经网络架构研究、模型预训练及扩展实验的专业平台。

了解详情🔗 github.com/microsoft/ArchScale

深度学习神经网络语言模型预训练模型架构 AI研究

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

n8n-MCP：为 Claude 等 AI 助手打造的模型上下文协议服务器，赋能

2

LLM Scraper：用大型语言模型（LLM）将任意网页转为结构化数据的 Ty

3

DeepScrape：基于 GPT-4o 与 Playwright 的智能网页爬

4

［人人能懂］Al的“内心戏”：它在想什么，我们知道吗？

5

智能不是技能的简单堆积，而是获取和运用新技能的效率体现。基准测试分数难以准确反映

6

OpenAI 荣获 IMO 金牌成绩背后的疑问与思考：• 无工具、无编程、无联网

7

AI 在 IMO 数学竞赛夺金虽炫目，却在预料之中——毕竟 AlphaGo 曾击

8

早！[太阳] 早安

9

晚安～ [月亮] 晚安

10

《爱可可微博热门分享(7.19)》

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

2025下半年新机打架谁是你的菜？

3

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

4

朝鲜的Mate50[doge][doge][doge]

5

荣耀线下店基本全面铺货，趁着周末去摸了摸荣耀X70，跟我想的有点不一样上手真

6

有部分汽车博主在本周末被集体禁言，就有车圈司马南之称的那位经期博主在弹冠相庆。话

7

二季度小米手机全球市场份额第三小米第三就算了，第一的竟然不是苹果，而是三星，这

8

提前给大家看下荣耀MagicV5的真机~和iPhone对比，也只是稍微厚一点点

9

目前来看，iPhone17系列只要你不选标准版，大概率是怎么选都不会后悔，当然

10

9月份集体硬刚iPhone？你更期待哪款？9月份就是新一轮旗舰机，集体硬刚i

科技最新文章

1

数码闲聊站OPPOK13Turbo系列参数汇总!OPPOK13

2

10000mAh大电池手机要来了！目前的智能手机续航得到进一步提升，电池容量达

3

荣耀Magic6，刚升级完最新版本，这次主要是相机和AI办公的升级。刚升

4

荣耀400啊，你的系统为什么老是要频繁更新呢？从买的第二天就开始提示更新，如今一

5

内鬼露头了！央视曾公开表扬的中国顶级AI公司，携带技术转移到了国外，只是为了能获

6

感觉手机买早了，肠子悔青了，荣耀X70早点发布该有多好两千以内可以买到8300

7

华为mate30从125升级到4.2.0.132版真是一个不寻常的历程。[捂脸哭]

8

还是自研芯片有底气，采用了玄戒O1的小米15SPro手机给芯片性能面板

9

重大消息，荣耀Magic7系列迎来了又一次重磅系统更新这次的182版本主要加入

10

黄仁勋发出对华为的惊天之问。1.现在世界上，哪家手机公司的手机，比华为的手