这些芯片,干成了
- 时间:2024-12-04 11:17来源:证券之星 阅读量:19997
如果您希望可以时常见面,欢迎标星收藏哦~
当超大规模计算设备和云计算构建者规模较小、Arm 集体未能冲击数据中心且 AMD 尚未走上复兴之路时,英特尔控制着新计算引擎进入数据中心的节奏。
本周,英特尔首席执行官帕特·基辛格被罢免,亚马逊网络服务公司在拉斯维加斯举办了年度 re:Invent 大会,有 60,000 人亲临现场,400,000 人在线参会,由此可以看出,谁在超大规模和云计算提供商的技术推广速度上占据主导地位,这一点非常明显。
他们还能控制何时不推出新技术,因为他们不必像其他芯片设计公司那样有新产品可以出售。他们不像英特尔、AMD 和 Nvidia 那样向 ODM 和 OEM 销售计算引擎,而是创建虚拟化实用程序并直接向客户出售原始容量的访问权限。从很多方面来看,这是一个更加顺畅和容易的业务。
如果您昨晚深夜聆听了 AWS 公用计算高级副总裁 Peter DeSantis 的开幕主题演讲,以及今天 AWS 首席执行官 Matt Garman 和母公司亚马逊首席执行官 Andy Jassy 的主题演讲,那么您可能和我们一样,正在等待有关未来计算引擎的一些公告,例如 Graviton5 服务器 CPU、Inferentia3 AI 推理加速器或 Trainium3 AI 训练加速器。
可惜的是,除了 Garman 的一张幻灯片展示了 Trainium3 采用 3 纳米工艺蚀刻而成之外,其性能是 Trainium2 的两倍,并且每瓦性能比 Trainium2 高出 40%,并没有关于未来 AWS 将推出自主研发硅片的谈论。
Garman 补充说,Trainium3“将于明年晚些时候推出”,这可能意味着它将在 2025 年 re:Invent 大会上推出。早在 6 月,就有传言称 AWS 高管证实 Trainium3 将突破 1,000 瓦,这丝毫不会让我们感到惊讶。Nvidia 的顶级“Blackwell”B200 GPU 的峰值功率为 1,200 瓦。
这仍然比我家里其他人使用的吹风机的瓦数要低,而且四十多年来我都不需要吹风机了。所以我们还没有感到惊慌失措。但它也有十几个白炽灯泡,这是一个奇怪的想法,特别是如果你从来没有等到它们冷却足够长的时间再把它们拿出来,而我们通常没有这样做。
我们有点惊讶,上个月的 SC24 超级计算会议上,我们还没有看到针对 HPC 应用的 Graviton4E 深度分类,这将与 AWS在 2021 年 11 月对普通 Graviton3和2022 年 11 月对增强型 Graviton3E所做的一样。Graviton4 可以说是市场上最好的基于 Arm 的服务器 CPU 之一,当然也是最适合任何人使用的 CPU,它于 2023 年 11 月问世,并于今年 9 月进行了内存提升。
AWS 对其 CPU、AI 加速器和 DPU 的年度发布节奏几乎没有任何压力,如果你仔细查看 Nvidia 和 AMD 的 GPU 路线图,就会发现它们的核心产品仍然每两年发布一次,第二年会针对第一年发布的 GPU 进行内存升级或性能调整。
AWS 的硅片开发节奏看起来是两年,中间会有一些波动。Graviton1 实际上是增强版的“Nitro”DPU 卡,它不算数。正如 DeSantis 在 2018 年推出 Graviton1 时的主题演讲中所说,Graviton1 是“向市场发出的信号”,旨在测试客户终于准备好在数据中心使用 Arm CPU 的想法。2019 年,随着 Graviton2 的推出,AWS 采用了台积电的现代 7 纳米工艺,并使用 Arm Ltd 的“Ares”N1 内核创建了一款 64 核设备,该设备可以完成有用的工作,而且与在 AWS 云上运行的英特尔和 AMD 的 X86 CPU 相比,性价比高出 40%。
两年后,Graviton3 问世,它采用了 Arm 功能更强大的“Zeus”V1 内核,尽管“只有”64 个内核,但可以突然承担更大的任务。两年后,Graviton4 问世,我们认为它缩小到了 4 纳米 TSMC 工艺,将 96 个“Demeter”V2 内核塞进插槽,与十几个 DDR5 内存控制器搭配使用,内存带宽为 537.6 GB/秒。与 Graviton3 相比,Graviton4 的单核性能提高了 30%,内核数量增加了 50%,一般来说,性能提高了 2 倍,根据我们在此处的定价分析,性价比提高了 13% 到 15%。在实际基准测试中,Graviton4 有时可提供 40% 以上的性能
坦率地说,AWS 必须花两年时间才能从处理器设计中收回这笔巨额投资。因此,在本周的 re:Invent 2024 大会上期待任何有关 Graviton5 的消息是不合理的——如果不是贪婪的话。不过,DeSantis、Garman 或 Jassy 还是可以透露一些消息的。
AWS 的高层确实在主题演讲中提供了一些有关 Graviton 的有趣统计数据。AWS 计算和网络服务副总裁 Dave Brown 展示了这张非常有趣的图表,它在一定程度上解释了为什么英特尔最近几个季度的财务状况如此糟糕:
粗略地说,AWS 四项核心服务下约一半的处理都在 Graviton 实例上运行。在刚刚过去的 Prime Day 购物活动中,亚马逊租用了超过 250,000 台 Graviton 处理器来支持该操作。
“最近,我们达到了一个重要的里程碑,”布朗继续说道。“在过去两年中,我们数据中心中超过 50% 的 CPU 容量都来自 AWS Graviton。想想看。Graviton 处理器的数量比所有其他类型的处理器加起来还要多。”
这正是微软多年前所说的想要做的事情,也正是我们所期望的。从长远来看,X86 是一个具有传统价格的传统平台。就像之前的大型机和 RISC/Unix 一样。RISC-V 最终可能会对 Arm 架构产生这种影响。
Garman 表示,这让我们大致了解了 AWS 内部 Graviton 服务器群的规模:“Graviton 正在疯狂增长。让我们来看一下背景。2019 年,整个 AWS 的业务价值为 350 亿美元。如今,AWS 集群中运行的 Graviton 数量与 2019 年所有计算量一样多。这是相当令人印象深刻的增长。”
我们很想知道 2019 年服务器机群的规模以及现在的规模。我们认为可以诚实估计的是,Graviton 服务器机群的增长速度比 AWS 本身更快,而且可能差距很大。这对英特尔的伤害比对 AMD 的伤害要大得多,因为多年来 AMD 的 X86 服务器 CPU 一直比英特尔更好。
Trainium将给AMD和Nvidia带来一些压力
Garman 之所以会谈论 Trainium3,唯一的原因是 AI 训练对高性能计算的需求增长速度远远超过任何人能够提供的计算引擎。随着 Nvidia 加大其“Blackwell”B100 和 B200 GPU 的投入,以及 AMD 明年扩大其“Antares”MI300 系列的规模,如果 AWS 希望客户能够放心地将他们的 AI 工作负载移植到 Trainium,它就不能表现出不致力于加速其 AI 芯片的决心。因此,才有了 Trainium3 的传闻。
也就是说,我们确实希望 AWS 能在明年 11 月或 12 月 re:Invent 大会召开之前对 Trainium3 发表一些其他评论,因为其他所有公司都将在 2025 年对其自主研发的 AI 加速器发表一些评论。
与 Graviton 系列一样,我们认为 Trainium 系列从现在开始也将以两年为周期推出。这些设备价格昂贵,AWS 必须将 Trainium 开发成本分摊到尽可能多的设备上,才能实现财务目标——就像 Graviton CPU 一样。与 Gravitons 一样,我们认为 AWS 一半的 AI 训练和推理能力将在其自主研发的 Annapurna Labs 芯片上实现的一天并不遥远。从长远来看,这对 Nvidia 和 AMD 来说意味着麻烦。尤其是如果谷歌、微软、腾讯、百度和阿里巴巴都做同样的事情的话。
AWS 不会傻到试图在 GPU 加速器市场与 Nvidia 竞争,但就像谷歌的 TPU、SambaNova 的 RDU、Groq 的 GroqChip 以及 Graphcore 的 IPU 一样,这家云计算构建者绝对认为它可以构建一个收缩阵列来进行差异化的 AI 训练和推理,并为云客户增加价值——并且与仅仅购买 Nvidia GPU 并完成它相比,它可能会有更好的利润率或至少更多的控制权。
正如我们上面指出的那样,AWS 高管并没有对 Trainium3 发表太多评论,但他们对 Trainium2 在 UltraServer pod 中的 Trn2 实例中可用感到非常兴奋。
早在 2023 年 12 月,去年的 re:Invent 大会之后,我们就详细介绍了 Trainium2 及其前身 Trainium1 以及用于 AI 推理的配套 Inferentia1 和 Inferentia2 加速器的架构。本周,AWS 进一步介绍了使用 Trainium2 加速器的系统的架构,并展示了它为基于它们扩展和扩展其 AI 集群而构建的网络硬件。
那么,让我们做一些展示和讲述。
以下是 DeSantis 展示 Trainium2 卡的情况:
正如我们去年指出的那样,Trainium2 似乎有两个芯片在单个封装上互连,可能使用 NeuronLink 芯片到芯片互连,该互连基于用于将 Trainium1 和 Trainium2 芯片相互连接的结构互连,以便在其共享的 HBM 内存之间一致地共享工作。
Trainium2 服务器有一个头节点,该节点带有一对主机处理器,并与三个 Nitro DPU 相连,如下所示:
下面是计算节点的顶视图,前端有四个 Nitro,后端有两个 Trainium2,采用无线设计以加快部署速度:
两个交换机托架、一个主机托架和八个计算托架组成了 Trainium2 服务器,该服务器使用 2 TB/秒的 NeuronLink 电缆将 16 个 Tranium2 芯片互连成 2D 环面配置,每个设备上的 96 GB HBM3 主内存与所有其他设备共享。每台 Trainium2 服务器都有 1.5 TB 的 HBM3 内存,总内存带宽为 46 TB/秒。此节点在密集 FP8 数据上的性能为 20.8 千万亿次浮点运算,在稀疏 FP8 数据上的性能为 83.3 千万亿次浮点运算。(AWS 在稀疏数据上的压缩率为 4:1,而 Nvidia 的“Hopper”和“Blackwell”GPU 的压缩率为 2:1,Cerebras Systems 晶圆级引擎的压缩率为 10:1。)
其中四台服务器互连,形成 Trainium2 UltraServer,该服务器在 64 个 AI 加速器上拥有 6 TB 的总 HBM3 内存容量,总内存带宽为 184 TB/秒。该服务器具有 12.8 Tb/秒的以太网带宽,可使用 EFAv3 适配器进行互连。UltraServer 服务器在密集 FP8 数据上的运算速度为 83.2 千万亿次,在稀疏 FP8 数据上的运算速度为 332.8 千万亿次。
以下是 DeSantis 展示 Trn2 UltraServer 实例背后的硬件:
机架顶部埋着许多电线,后面有一对交换机,它们组成了 3.2 Tb/秒 EFAv3 以太网网络的端点,该网络将多个 Tranium2 服务器相互连接以创建 UltraServer pod,并将 pod 相互连接并与外界连接:
不要以为这就是网络的全部。如果你想运行大规模基础模型,你需要的加速器远不止 64 个。为了将拥有数十万个加速器的机器连接在一起,进行英雄训练,AWS 设计了一种网络结构,称为 10p10u,其目标是在整个网络的延迟低于 10 微秒的情况下,提供每秒数十 PB 的带宽。
10p10u 网络结构机架的外观如下:
上面的配线架中的布线非常复杂,因此 AWS 发明了一种光纤主干电缆,其管理的电线数量压缩了 16:1,因为它将数百个光纤连接放在一根粗管中。这使得配线架更简单,如下所示:
右侧的接线架使用的是光纤主干电缆,而且更加整洁,体积也更小。需要管理的连接和线路越少,错误就越少,这对于快速构建 AI 基础设施至关重要。
据我们所知,这个 10u10p 网络不仅专门用于 AI 工作负载,而且 AI 工作负载显然正在推动其采用。DeSantis 展示了与 AWS 创建的旧以太网相比,它的发展速度有多快。请看一看:
假设这是累积链接数,这是唯一有意义的计算,较旧的 Euclid 网络结构在四年内逐渐增加到近 150 万个端口。名为 One Fabric 的网络与 10u10p 网络在 2022 年中期推出的时间大致相同,我们假设其中一个使用 400 Gb/秒以太网,而 10u10p 几乎肯定基于 800 Gb/秒以太网。但这些都是猜测。One Fabric 有大约 100 万个链接,而 10u10p 看起来有大约 330 万个链接。
总而言之,Garmin 表示,与 AWS 云上基于 GPU 的实例相比,Trn2 实例的性价比将提高 30% 到 40%。我们以前在哪里听说过这些数字?哦,对了……Graviton 在 AWS 云上比 X86 具有性价比优势。
当然,AWS 可以随心所欲地扩大外部计算引擎和其自主研发引擎之间的差距。如果它希望 Trainium 在不久的将来成为其 AI 训练队伍的一半,那么这可能是保持正确差距的正确方法。
最后一件事。作为主题演讲的一部分,DeSantis 和 Garman 都谈到了 AWS 正在构建的代号为 Project Ranier 的超级集群,以便 AI 模型合作伙伴 Anthropic拥有用于训练其下一代 Claude 4 基础模型的机器。Garman 表示,Project Ranier 将拥有“数十万”个 Trainium2 芯片,其性能将是 Claude 3 模型所用机器的 5 倍。
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
今天是《半导体行业观察》为您分享的第3966期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。
最新推荐
-
01
本田e:N2Concept全球
第五届中国国际进口博览会在上海国家会 [详细]
-
02
卓思获国有投资集团战略投资
11月8日,CEM制造商北京卓思天成 [详细]
-
03
销量稳扎稳打向上突围,智己L7
在智能化和电动化的赛道上,中国汽车品 [详细]
-
04
如何定义国产高端重卡?搭载福康
如何定义国产高端重卡?相信每个卡友对 [详细]