「这不是演唱会。你们是来参加开发者大会的!」老黄出场时,现场爆发出了巨大的欢呼声。
今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。
今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。
「通用计算已经失去动力,现在我们应该更大的模型,我们应该更大的 GPU,更需要将 GPU 堆叠在一起。」黄仁勋说道。「这不是为降低成本,而是为了扩大规模。」
黄仁勋提到,大模型参数量正在呈指数级增长,此前 OpenAI 最大的模型已经有 1.8T 参数,需要吞吐数十亿 token。即使是一块 PetaFLOP 级的 GPU,训练这样大的模型也需要 1000 年才能完成。这句话还透露了一个关键信息:GPT-4 的实际参数量应该就是 1.8 万亿。
为了帮助世界构建更大的 AI,英伟达必须首先拿出新的 GPU,这就是 Backwell。此处老黄已有点词穷了:「这是块非常非常大的 GPU!」
Blackwell 的发布意味着,近八年来,AI 算力增长了一千倍。一些网友看完发布会惊叹:Nvidia eats world!
在今天的大会上,英伟达正式推出了 Blackwell 平台。从此以后,在数万亿参数上构建和运行实时生成式 AI 大型语言模型的成本和能耗降低到此前的 25 分之一。
Blackwell 的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell,它继承了 Hopper GPU 架构,为加速计算树立了新的标准。英伟达表示,Blackwell 架构的 GPU 预计将于今年晚些时候发货。
正如预期的一样,Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。
黄仁勋表示,Blackwell 将变成全球上最强大的芯片。Blackwell 架构的 GPU 拥有 2080 亿个晶体管,采用定制的、双 reticle 的台积电 4NP(4N 工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达 10TBps,可以大幅度提升处理能力。
此处需要强调的是,没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU。
这是世界上第一次有如此高效整合在一起的多 die 芯片,或许也是在制程升级速度减慢之后,升级算力的唯一方法。
相较于 H100 Tensor Core GPU,GB200 超级芯片可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达 25 倍。
「人们认为我们制造 GPU,但 GPU 看起来并不像以前那样了,」黄仁勋表示。「我现在一手拿着 100 亿,一手拿着 50 亿。」
现在,显卡不再是显卡,而是作为系统整体售卖,毕竟只有通过英伟达自家的组件才可以做到最佳效率。「现在我们卖的 GPU 是 7000 个组件,3000 磅重。」
生成式 AI 的下一步是多模态和视频,也就从另一方面代表着更大规模的训练,Blackwell 带来了更多可能性。
此外,大模型(LLM)的大规模推理始终是一个挑战,并非适合单个 GPU 的任务。在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,并且训练速度是 H100 的 4 倍。
现在,用于大模型推理的速度是上代的 30 倍,黄仁勋展示了一张对比图,蓝线是 Hopper。
「DGX 超级计算机是推进 AI 产业变革的工厂。新一代 DGX SuperPOD 集加速计算、网络和软件方面的最新进展于一身,能帮助每一个公司、行业和国家完善并生成自己的 AI,」黄仁勋说道。
30 倍 AI 算力是怎么样才能做到的?除了使用新制程,并联两块芯片以外,Blackwell 的关键改进在于引入第二代 Transformer 引擎,它支持了 FP4 和 FP6,使得计算、带宽和模型大小翻了一番。
当互联大量此类 GPU 时,第二个关键区别开始显现:下一代 NVLink 交换机可让 576 个 GPU 相互通信,具有每秒 1.8 TB 的双向带宽。
英伟达表示,此前,仅由 16 个 GPU 组成的集群会在相互通信上花费 60% 的时间,而只有 40% 的时间用于实际计算。
所以今年画风变了现在 DGX 长这样:拥有 5000 条 NVLink 电缆,长达 2 英里,都是铜电缆,不需要光收发器,节省了 20kW 的计算成本。
它的功耗过大,以至于需要用液冷,同时重量高达 3000 磅(约 1361 公斤)。
除了硬件系统,英伟达也利用生成式 AI 构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。
英伟达表示,它正在将 Omniverse 企业技术引入苹果。这个想法是让研发人员通过 Vision Pro 在 AR/VR 设置中使用 Omniverse 工具。在 GTC 上,英伟达展示了设计师是如何通过 Vision Pro 使用汽车配置工具来操纵车辆,然后虚拟地进入其中的。人类能通过 Omniverse Cloud API 以及通过云端直接流式传输到 Vision Pro 的图形传输网络来做到这一点。
最后,还有前沿方向机器人的工作,英伟达公布了人形机器人项目 GR00T。
GR00T 脱胎于英伟达的 Isaac 机器人平台工具,基于新的通用基础模型,GR00T 驱动的人形机器人可接受文本、语音、视频甚至现场演示的输入,并对其做处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。
英伟达还开发了一种新型「机器人大脑」计算芯片 Jetson Thor,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器。
人形机器人赛道近期达到了一个新的火热程度。就比如英伟达的「大客户」OpenAI,一直在使用自己的 AI 模型来为一家名为 Figure 的初创公司的人形机器人提供支持。
现在英伟达也把它摆在了重要位置,正如黄仁勋所说:「机器人的 ChatGPT 时刻可能马上就要来临。」