DeepSeek-V3的训练只用了2.788MH800GPUhours。

蚁工厂 2024-12-27 02:10:47

DeepSeek-V3 的训练只用了2.788M H800 GPU hours。也就是两千台H800 (H100的中国定制低配版)训练两个月.

0 阅读:1
蚁工厂

蚁工厂

感谢大家的关注