Rubin是首代大规模搭载HBM4的架构。在技术层面,训练主要是Comp

梁斌聊商业 2026-02-02 00:09:51

Rubin 是首代大规模搭载 HBM4 的架构。在技术层面,训练主要是 Compute-bound(计算受限),Batch比较大,而推理,尤其是长文本和高并发,是极度 Memory-bound(带宽受限) 的,Batch小,延迟要求高,毕竟是服务大量群众的。Rubin 把带宽拉到 20TB/s 以上,本质上就是为了解决推理时的吞吐瓶颈。

Rubin 当然能训练,英伟达的卡从来不偏科。但为什么要强调推理?因为 HBM4。训练吃算力,推理吃带宽。Rubin 把内存带宽拉到 Blackwell 的两倍多,摆明了是要在推理端降维打击,能训练是保底,推理成本降一个数量级才是 Rubin 让大厂掏钱的主要原因。。

现在大厂手里囤了那么多 H100 还没跑满,为什么还要盯着还没出的 Rubin?就是因为推理太贵。训练是研发投入,咬牙也就过了;但推理是日活开支,那是每天都在烧的钱。Rubin 的 HBM4 就是避免长期烧钱,没有谷歌的TPU也就算了,现在有个魔鬼TPU在边上,TPU 推理每 Token 成本比 H100 低 4 倍,不求变是不行的,不买是不行的。。

我厂有很多V100,也有H100,AMD 的MI250,300X 等,现在GB200还太贵,TPU要用谷歌云不方便,Rubin还没发布,我作为厂长,当然要了解和学习这里面的名堂。。当然我肯定没写过实际代码,就像老黄也没写过,不妨碍我们吹牛啊,对不对。

0 阅读:0
梁斌聊商业

梁斌聊商业

感谢大家的关注