全球巨头GPU总量巨增,2025年将超等效H100逾1240万块
全球大型科技公司正在争夺数据中心主导地位,纷纷加紧布局下一代AI算力,预计到2025年,全球巨头持有的等效H100 GPU总量将超过1240万块。
根据LessWrong网站近期发布的博客,对英伟达芯片产量以及各大AI巨头GPU/TPU数量的估算,以及对未来芯片发展的展望,五大科技公司将在2024年和2025年拥有以下数量的等效H100算力:
2024年底
| 公司 | 等效H100数量 |
|---|---|
| 微软 | 75万-90万 |
| 谷歌 | 100万-150万 |
| Meta | 55万-65万 |
| 亚马逊 | 25万-40万 |
| xAI | 10万 |
2025年
| 公司 | 等效H100数量 |
|---|---|
| 微软 | 250万-310万 |
| 谷歌 | 350万-420万 |
| Meta | 190万-250万 |
| 亚马逊 | 130万-160万 |
| xAI | 55万-100万 |
英伟达GPU霸主地位稳固,预计2025年销量达650万至700万块
英伟达稳坐GPU霸主地位,预计2024自然年的数据中心收入将达到1100亿美元,比2023年的420亿美元增长了一倍多,2025年有望突破1730亿美元。其中主要的收入来源便是GPU,预计2025年销量为650万至700万块,几乎全是最新的Hopper和Blackwell系列。
具体而言,预计2025年英伟达将售出约200万块Hopper GPU和500万块Blackwell GPU。2024年,英伟达预计将生产约500万块Hopper GPU,包含一些性能较低的H20芯片。
AI训练加速器需求激增
随着AI技术的发展,对大规模AI训练的需求不断增长,推动了AI训练加速器市场的快速发展。
谷歌拥有大量自研的定制TPU,是其内部工作负载的主要计算芯片。2024年,谷歌预计将拥有相当于100万到150万块等效H100算力,其中大部分可能通过TPU实现。
亚马逊内部的AI工作负载规模较小,主要通过英伟达GPU满足云平台的外部GPU需求,尤其为Anthropic提供算力支持。亚马逊也在开发自研芯片,但进度落后于谷歌的TPU。
Blackwell芯片预计大幅提升算力
英伟达最新的Blackwell芯片(GB200)预计将在2025年带来大幅的算力提升。对于训练性能,Blackwell芯片预计比H100高出2.2倍。微软预计将在2025年获得100万块Blackwell芯片,谷歌和亚马逊预计也将获得大量Blackwell芯片。
巨头们训练前沿模型部署算力
OpenAI的训练成本预计在2024年达到30亿美元,推理成本为40亿美元。 Anthropic的训练成本预计约为15亿美元。
据报道,xAI用2万块H100训练了Grok 2,并计划用10万块H100训练Grok 3。这表明xAI的计算资源利用率处于前沿水平。
谷歌Gemini Ultra 1.0模型使用了约为GPT-4的2.5倍的计算资源,发布时间却晚了9个月。其所用的计算资源比Meta的最新Llama模型高25%。
总结
全球五大科技公司正在紧锣密鼓地布局下一代AI算力,2025年预计将拥有超过1240万块等效H100算力,这将极大地推动人工智能技术的进步。英伟达作为GPU霸主,将继续主导数据中心市场,而谷歌、亚马逊和xAI等公司也在加紧自研AI训练加速器,以应对不断增长的AI训练需求。
原创文章,作者:讯知在线,如若转载,请注明出处:http://web.xzxci.cn/2024/12/02/26662.shtml