有网友让我从技术上讲讲Rubin架构比前几代到底好在哪?为什么之前每一代都有大厂

梁斌聊商业 2026-02-01 12:14:05

有网友让我从技术上讲讲Rubin架构比前几代到底好在哪?为什么之前每一代都有大厂愿意买单,这次也会买单吗?

答:最早的显卡,比如V100,特别适合做A*B 这种矩阵,但是不适合做A*B*C 这种,因为要先计算A*B,返回显存,然后结果再和C乘,计算单元空转,显存带宽成了瓶颈;

而后来的Hopper架构,比如H100,解决了减少中间结果写回的问题,为KV计算(也就是A*B*C)这种模式专门设计。但此时单卡成为瓶颈,如何把72 卡 / 144 卡当成一张卡用,这就迎来新的挑战。

blackwell架构解决了单卡扩张的问题,传统1 GPU = 1 张卡 = 1 颗芯片 = 1 份 HBM,多卡只是多个GPU并行,软件层拼接。Blackwell时代,1 GPU = 72 / 144 张卡 = 一个共享内存池 = 一个调度域。H100 时代:tensor parallel;pipeline parallel;expert parallel;全靠工程师“手搓”;Blackwell时代 硬件层提供“近似单卡”的抽象 软件不再需要理解 144 卡拓扑,软件层完全不知道硬件后面发生的事情,不需要烧脑的去手搓任务分配。H100:跨卡 = send / recv 有延迟、有同步、有上下文切换;Blackwell:跨卡 = 远程内存访问;在硬件层被调度、缓存、预测。即便H100接上Nvlink也还是慢,复杂度高,而blackwell架构的显卡单位是B200,一个NVlink switch 可以互联 72 个 GB200 ;每个1 个 GB200 = 2 个 B200;一共是144个B200成为的AI计算单元,而用户在变成的时候看上去就是一张GPU,非常方便。

Rubin架构主要是专门面向推理战场设计的,传统训练显卡干推理,永远干不赢谷歌的TPU,TPU是专用显卡,算多大batch都是事先定义好,焊死在硬件上的,拿到太多先验知识,可优化的点就太多了。。而老黄和OpenAI这些大厂都感到了巨大的竞争压力,推理是读多写少,讲究P99延迟,batch很小,因此计划是压低一个数量级的成本,也就是以前如果吐一个token10块钱,现在要压到1块钱,形成长久的竞争力。

那么讲完这么多,就能看出英伟达每一代芯片都必须有人买,H100比V100,单独优化了解决了KV 计算,不买H100不行。GB200解决了单卡(B200)互联问题,老黄给出更好的系统级解决方案,客户不需要自己研究网卡互联问题了,系统层解决了。Rubin架构解决的是推理问题,不能让高端训练显卡干推理的事情,太亏了。

综上,老黄这个Rubin出来,大厂还是要买单的,而且不会少,否则就没有竞争优势了,另外从我一个业内人士的角度,一个大模型出来,总是效果非常惊艳,然后就越来越垃圾,这都是推理成本高,后续不断出省钱的骚操作,归根到底还是推理成本太大了,Rubin必须买,真不买不行,否则搞不了大规模并发用户,竞争优势就没了,模型好,不能低成本吐token,等于零。

最后,水平有限,不一定对,仅供投资同志参考。

0 阅读:0
梁斌聊商业

梁斌聊商业

感谢大家的关注