DeepSeek-V3 的训练只用了2.788M H800 GPU hours。也就是两千台H800 (H100的中国定制低配版)训练两个月.
DeepSeek-V3的训练只用了2.788MH800GPUhours。
蚁工厂
2024-12-27 02:10:47
0
阅读:1