北京劳动者之歌CUDA被撕开第一道口儿!谷歌TPUv7干翻英伟达

  【新智元导读】当谷歌不再只餍足于「TPU本人用」,TPU摇身一酿成了英伟达王座下最锐利的一把刀!CUDA护城河还能守住吗?读完这篇SemiAnlysis的理会,你可能会第一次从「算力账本」的视角,看懂谷歌隐藏的杀招。资金商场给出了昭着的反映,谷歌股价的上涨,也让一个话题再次被拿到牌桌上筹商:越发是TPUv7更是人们筹商体贴的重心,这款特意为AI打算的芯片是否或许打垮英伟达众年来的GPU酿成的垄断?一目了然,SemiAnlysis是一家正在科技界,越发是半导体和人工智能范围极具影响力的精品商量与斟酌公司。它以硬核、深度的数据理会著称,区别于通常而道的科技媒体,它更像是一个任事于华尔街投资者、芯片巨头和AI从业者的「行业智库」。刚才,他们最新的作品给出一个昭着的结论:TPUv7初度向英伟达倡导了冲锋。这篇作品深切分析了谷歌TPUv7怎么向英伟达的AI硬件霸权倡导本质性挑拨。重点转化点正在于:谷歌打垮永久以还的内部自用常规,初阶向Anthropic等外部客户大界限出售TPU硬件及算力,后者已布置超越1GW的TPU集群。假使正在单芯片外面参数上TPU未必碾压英伟达,但谷歌依附卓着的编制级工程(如ICI互联和光途互换)告终了极高的实践模子算力欺骗率(MFU),且总体具有本钱(TCO)比英伟达GB200编制低约30%-40%。谷歌正通过撑持PyTorch原生情况和vLLM等开源生态,踊跃修补软件短板,试图从底子上破裂CUDA的护城河。目前上海证件制作,全邦上最顶尖的两个模子——Anthropic的Clude 4.5 Opus,以及谷歌的Gemini 3,它们绝大片面操练和推理基本步骤,都运转正在谷歌的TPU和亚马逊的Trinium上。个中的Gemini 3,以及其悉数早期版本的Gemini,则是齐备正在TPU进步行操练的上海证件制作。但连续到2013年,谷歌才初阶为TPU芯片奠定基本,并正在2016年将其参加坐褥。统一年,亚马逊也启动了Nitro安排,该安排用心于拓荒芯片以优化通用CPU估量和存储。英伟达还特意为此公布了一条官方推文,祝贺谷歌正在AI范围的发达,同时不忘夸大本人已经遥遥领先。正在推文中,英伟达夸大本人仍正在接连向谷歌供应硬件,并暗示本人已经领先行业一代,是独一或许运转悉数AI模子毕业证制作、并能正在各样估量场景中应用的平台。同时,夸大GPU比专用芯片(ASIC)正在功能、通用性和可替换性上更强,这句话昭着是对谷歌TPU、AWS Trinium等专用芯片的回应。正在过去的几个月里,谷歌DeepMind的Gemini 3、谷歌云以及TPU归纳体,赚足了眼球,也将谷歌母公司Alphbet的市值推高至亲昵4万亿美元。TPU产量大幅上调,Anthropic、Met、SSI、xAI、OAI等TPU的客户名单正正在不停扩充,这些胀励了谷歌和TPU供应链的大幅从头评级,无疑也将压制以英伟达GPU为要点的供应链。除了面临TPU的压力,英伟达还面对着通过「轮回经济」变成AI泡沫的质疑,很众质疑者以为英伟达通过资助烧钱的AI首创公司,素质上是将钱从一个口袋挪动到另一个口袋。英伟达旨正在通过股权投资而非减价来珍爱其正在基本尝试室的主导职位——减价将拉低毛利率并激励投资者普通惊愕。固然OpenAI目前尚未布置TPU,但仅凭「转向TPU」这一能够,就已正在其英伟达集群本钱上省俭约30%。粗略来说,OpenAI并没有真的把谷歌的TPU芯片任事器里跑工作,而是把「我随时能够改用TPU」行为一个伟大的讲和筹码,迫使英伟达为了留住这个大客户,变相赐与了巨额优惠。TPU货仓永久以还连续与英伟达AI硬件相抗衡,但它首要是为了撑持谷歌的内部事情负载。假使正在2018年向谷歌云平台客户供应TPU之后,谷歌仍未将其齐备贸易化。正在过去的几个月里,谷歌曾经启发了整体货仓的悉力上海证件制作,通过谷歌云平台或行为商用供应商出售完美的TPU编制,开启了TPU大界限商用的步调。与此同时,谷歌的顶级客户Anthropic也正在不断胀励挣脱对英伟达简单依赖,两者正在采用TPU上一拍即合。TPUv7 Ironwood是一个非凡编制内的强健芯片,假使芯片正在参数上掉队于英伟达,谷歌的编制级工程也使得TPU货仓正在功能和本钱效果方面都能与英伟达相成婚。这种组合为Anthropic供应了引人精明的功能和TCO,因而取得了其大界限的订单上海证件制作。与英伟达通过GB200扩展其GPU生态相似,谷歌自2017年TPUv2以还,也连续正在机架内和跨机架扩展TPU。自2024年5月GPT-4o以还,OpenAI的顶尖商量职员尚未杀青广博用于新前沿模子的胜利全界限预操练运转,而TPU平台则通过了这一测试。关于谷歌来说,正在最具挑拨性的硬件题目之一中悄然挤入并修修功能领先职位,确实是一个令人印象深入的豪举。固然谷歌连续正在胀励编制和搜集打算的边境,但从一初阶,谷歌正在芯片方面的打算理念相关于英伟达就更为落后|后进。汗青上,TPU的峰值外面FLOPs昭着较少,内存规格也低于相应的英伟达GPU。起初,谷歌对其基本步骤的「RAS」(牢靠性、可用性和可任事性)卓殊侧重。第二个缘由,直到2023年,谷歌的首要AI事情负载是为其重点查找和广告资产供应动力的推举编制模子。与大模子事情负载比拟,RecSys事情负载的算术强度要低得众,这意味着相关于传输的每一位数据,须要的FLOPs更少。商用GPU供应商心愿为其芯片营销尽能够好的功能规格,这驱策他们将营销的FLOPs提升到尽能够高的数字。TPUv7 Ironwood是下一次迭代,谷歌正在FLOPs、内存和带宽方面险些齐备缩小了与相应英伟达旗舰GPU的差异,假使周到上市比Blckwell晚了1年。外面上的绝对功能是一回事,但主要的是单元总具有本钱(TCO)的实践功能。固然谷歌通过Brodcom采购TPU并付出高额利润,但这昭着低于英伟达不光正在他们出售的GPU上,并且正在整体编制(席卷CPU、互换机、NIC、编制内存、布线和衔尾器)上赚取的利润。从谷歌的角度来看,每颗芯片正在全界限布置下的TCO比英伟达GB200任事器低 44%。英伟达的上风源于CUDA护城河和开箱即用的广博开源库,助助事情负载高效运转,告终高FLOPs和内存带宽。比拟较之下,TPU软件货仓开箱即用的功能较弱,然而Anthropic具有强健的工程资源和前谷歌编译器专家,他们既通晓TPU货仓,也很好地舆会本人的模子架构。他们能够投资自界说内核以驱动高TPU效果,这使得他们能够抵达比采用其他商用GPU更高的MFU(模子FLOPs欺骗率)和更好的每PFLOP本钱功能($/PFLOP)。只面向内部的另一个上风是TPU团队卓殊侧重内部性能请乞降优化内部事情负载。谷歌以来修削了针对外部客户的软件策略,并曾经对其TPU团队的KPI以及他们怎么为AI/ML生态编制做出功勋做出了强大改造。从5月初阶,创修了「tpu-inference」栈房,这是官方的vLLMTPU联合后端。谷歌正在软件策略方面如故管束不妥的一个地方是,他们的XLA图编译器、搜集库和TPU运转时如故没有开源,也没有很好的文档纪录。这让从高级用户到寻常用户的各样用户感觉消极,由于他们无法调试代码出了什么题目。就像PyTorch或Linux开源敏捷添补了采用率相似,为了加快用户的采用,谷歌可能该当将其开源,用户采用率的添补将超越他们公然和免费供应的悉数软件IP。假使念要通晓更深切的技巧细节,例如谷歌独有的ICI光互连技巧究竟有哪些上风,能够阅读原文:

相关文章