有网友让我从技术上讲讲Rubin架构比前几代到底好在哪？为什么之前每一代都有大厂

有网友让我从技术上讲讲Rubin架构比前几代到底好在哪？为什么之前每一代都有大厂愿意买单，这次也会买单吗？

答：最早的显卡，比如V100，特别适合做A*B 这种矩阵，但是不适合做A*B*C 这种，因为要先计算A*B，返回显存，然后结果再和C乘，计算单元空转，显存带宽成了瓶颈；

而后来的Hopper架构，比如H100，解决了减少中间结果写回的问题，为KV计算（也就是A*B*C）这种模式专门设计。但此时单卡成为瓶颈，如何把72 卡 / 144 卡当成一张卡用，这就迎来新的挑战。

blackwell架构解决了单卡扩张的问题，传统1 GPU = 1 张卡 = 1 颗芯片 = 1 份 HBM，多卡只是多个GPU并行，软件层拼接。Blackwell时代，1 GPU = 72 / 144 张卡 = 一个共享内存池 = 一个调度域。H100 时代：tensor parallel；pipeline parallel；expert parallel；全靠工程师“手搓”；Blackwell时代硬件层提供“近似单卡”的抽象软件不再需要理解 144 卡拓扑，软件层完全不知道硬件后面发生的事情，不需要烧脑的去手搓任务分配。H100：跨卡 = send / recv 有延迟、有同步、有上下文切换；Blackwell：跨卡 = 远程内存访问；在硬件层被调度、缓存、预测。即便H100接上Nvlink也还是慢，复杂度高，而blackwell架构的显卡单位是B200，一个NVlink switch 可以互联 72 个 GB200 ；每个1 个 GB200 = 2 个 B200；一共是144个B200成为的AI计算单元，而用户在变成的时候看上去就是一张GPU，非常方便。

Rubin架构主要是专门面向推理战场设计的，传统训练显卡干推理，永远干不赢谷歌的TPU，TPU是专用显卡，算多大batch都是事先定义好，焊死在硬件上的，拿到太多先验知识，可优化的点就太多了。。而老黄和OpenAI这些大厂都感到了巨大的竞争压力，推理是读多写少，讲究P99延迟，batch很小，因此计划是压低一个数量级的成本，也就是以前如果吐一个token10块钱，现在要压到1块钱，形成长久的竞争力。

那么讲完这么多，就能看出英伟达每一代芯片都必须有人买，H100比V100，单独优化了解决了KV 计算，不买H100不行。GB200解决了单卡（B200）互联问题，老黄给出更好的系统级解决方案，客户不需要自己研究网卡互联问题了，系统层解决了。Rubin架构解决的是推理问题，不能让高端训练显卡干推理的事情，太亏了。

综上，老黄这个Rubin出来，大厂还是要买单的，而且不会少，否则就没有竞争优势了，另外从我一个业内人士的角度，一个大模型出来，总是效果非常惊艳，然后就越来越垃圾，这都是推理成本高，后续不断出省钱的骚操作，归根到底还是推理成本太大了，Rubin必须买，真不买不行，否则搞不了大规模并发用户，竞争优势就没了，模型好，不能低成本吐token，等于零。

最后，水平有限，不一定对，仅供投资同志参考。

0 阅读：0