时间:2024-04-16 21:57:29来源:互联网
别看各大厂的老板,求着老黄买卡是对英伟达态度非常好;但实际上,对英伟达恐惧在硅谷正与日俱增,大佬们都在牌桌底下热议如何摆脱。面对英伟达如此凌厉的明牌攻势,此前一盘散沙的非英伟达阵营也展示出了空前的团结。
GPU芯片和CUDA网络,似乎壁垒过高,尽管比如谷歌已经死磕TPU多年,但收效甚微,更多人是选择了躺平接受了英伟达在GPU上垄断的现实,所以英伟达的GPU才能毛利率高达90%以上,堪称有史以来最暴力的硬件。
而交换协议和交换机,由于技术壁垒相对低,且处于产业变革的早期,成为众人攻破英伟达堡垒最优的一致选择。
至此,交换机这一长久以来不遭重视的网络设备,一下子跃升为AI算力基础中的暗战高地。为了追赶英伟达IB方案,2023年7月,“超以太网联盟”(Ultra Ethernet Consortium)正式成立,这一联盟迅速成为各个大厂的救命稻草。英特尔、微软、Meta、博通、AMD、思科、Arista、Eviden、HP等陆续加入。
超以太联盟成立后,便马上推出了RoCEv2(RDMA over Converged Ethernet)方案,在软件层吸收了前文提到的关键技术RDMA,剑指的方向非常明确,那就是力争对标IB性能。
以太网的后发优势目前看有两个:
根据产业链调研,英伟达的IB方案比以太网方案贵20-30%。以太网方案可以通过主打性价比来扳回一局。
人多势众。传统的数据中心,基本都是以太网协议,对于升级到超以太,兼容性要好得多,毕竟协议就是硬件对话的语言,用的人多自然就成了主流。
在超以太联盟中的GPU全球老二AMD,把这两点说得更加清晰:以太网将成为AMD构建算力集群的基础协议,因为以太网拥有更好的性能、更强大的大规模集群能力,以及最为核心的开放性,希望与头部交换机厂商一起,降低组网成本,打造更具性价比的网络。
也正是基于这两点原因,不少人对于超以太网联盟还是很有信心的。到底是以太网胜出,还是IB一统天下,最终谜底只能留给时间来验证。但不管怎么样,英伟达与超以太联盟的这轮对垒应该是非常精彩的,必将成为科技史上日后遭人反复提及的经典桥段。
但笔者倾向于认为超以太网的胜算还是遭高估了。因为Scaling Law的指导之下,AI算力网络比拼是速度不是价格,人多如果不是最优方案,那可能也只是乌合之众。这就像自行车肯定是更经济的出行方式、骑的人也多,但是没有人会用它来上高速,留给以太网联盟的时间其实不多。
图:超以太网联盟3、国产还落后以太网联盟半个身位
本来行文至此就可以收笔了,但估计还有不少人关注国产算力网络中交换机的进展,在此再赘述一二。
在互联网时代的算力基础设施投资中,得益于运营商的超前投资,我国的基础网络速度、渗透率在全球都处于领先地位,这也在后面直接催生了中国的移动互联网繁荣,中国的互联网公司,也因此具备全球竞争力。
不少人认为,我们在AI时代,也可以依葫芦画瓢,上演后来者居上的戏码。
但不得不直面的遗憾现实是,而在算力网络时代,我们的算力基础设施处于完整落后状态。我们不仅仅在GPU、HBM、先进封装方面有不少课要补,代表着算力集群能力的交换机我们也并没有什么优势可言。一方面我们并没有IB交换机,只能做以太网交换机,而且以太网交换机的代际更迭上也落后于海外1代,也就是落后超以太网联盟半个身位。
好在和其他网络设备一样,中国在交换机上其实一直具备很强的竞争力,这还要得益于华为20多年前的努力,以及孵化了后来的新华三。时至今日,国内的AI算力网络中的交换机仍然沿袭了骨干网和数据中心网络中的格局,新华三和华为依旧是主要的玩家。
种一棵树最好的时间是十年前,其次是现在。虽然在AI交换机上我们落后了不少,但依靠历史积累和集体的力量,如果从现在开始追赶,这一场对弈,我们未必不能上桌。