QuACK,一组用CuTe-DSL编写的奇特内核,用于提升内存受限内核在

蚁工厂 2025-07-11 10:58:01

QuACK ,一组用 CuTe-DSL 编写的奇特内核,用于提升内存受限内核在 Python 中的性能。

github.com/Dao-AILab/quack

使用 CuTe DSL 实现的内核在 NVIDIA H100 上达到了 3.01 TB/s 的 DRAM 吞吐量,接近硬件极限。支持 H100 或 B200 GPU ​​​

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注