00:00:00 算力革命与规模化护城河:从电子到产业链的黄仁深度重构
00:13:11 加速计算的本质:超越摩尔定律的架构灵活性与算法创新
00:24:47 生态飞轮:CUDA 的装机量优势与推理成本优化
00:35:25 商业哲学与资源分配:通过生态投资赋能定义计算未来
00:57:37 全球化视野:开源生态协作与技术标准的影响力
01:13:41 产业竞争平衡:多层架构下的技术领先与市场布局策略
01:31:34 未来进化之路:推理市场细分与加速计算的长远愿景
在黄仁勋的心智模型中,英伟达的勋最新商业本质极其简洁而宏大。他将公司的深视频运作比作一场奇妙的旅程:输入的是基础的电子,输出的访英是承载智能的Token。这种转化过程并非简单的伟达万字硬件堆砌,而是城河持续一种复杂的“智力炼金术”。针对市场关于人工智能软件可能商品化的图解担忧,黄仁勋给出了否定的全文回答。他认为,黄仁“从电子到Token的勋最新转变是一段不可思议的旅程,在赋予Token价值的深视频过程中所投入的艺术、工程和科学,访英远未被深度理解”。伟达万字
他强调,城河持续英伟达的图解工作是尽一切可能实现必要的投入,同时减少冗余,以确保这一转型能以极其强大的能力完成。在黄仁勋看来,未来的智能体数量将呈指数级增长,所有的软件工具都将被这些智能体以前所未有的方式重新使用。“我认为智能体的数量将呈指数级增长,工具使用者的数量也将随之飙升,这意味着软件公司的实例数量极有可能直线攀升”。这一愿景将英伟达定位为这场智能革命的基础设施提供商,而非简单的工具制造者。
英伟达之所以能保持其统治地位,除了技术领先,更在于其庞大的、具有前瞻性的供应链布局。目前,英伟达与台积电、内存厂商及封装企业签订了近千亿美元的采购承诺。黄仁勋解释道,这种规模的投资并非一蹴而就,而是基于他对行业未来的深刻洞察。他会亲自游说全球顶尖供应商的首席执行官,向他们展示人工智能未来的宏大蓝图,并说服他们共同投资。
“为什么供应商愿意为我而非其他人投资?因为他们知道我有能力采购他们的供应,并通过庞大的下游渠道将其销售出去”。这种“飞轮效应”让英伟达在面临瞬时需求爆发时,能够比竞争对手更快地协调资源。黄仁勋甚至将自己比作行业内的“总协调人”,通过每年的技术发布会(如开发者大会)让上下游看到未来的确定性。他坦言,虽然目前需求远大于供给,但所有的物理瓶颈——无论是先进制程还是封装技术——在两三年内都是可以规模化解决的。“只要有明确的需求信号,一旦你能制造出一台机器,你就能制造出一百万台”。
面对诸如张量处理单元等专用集成电路的竞争,黄仁勋表现得极为自信。他指出,英伟达构建的是“加速计算”,其应用范围涵盖了从分子动力学到流体力学的各类科学领域,而不仅仅是矩阵乘法。英伟达最核心的资产在于其庞大的软件生态系统和数以亿计的装机量。
“如果你是一名开发者,你最渴望拥有的就是装机量。你希望你编写的软件能运行在海量的计算机上”。黄仁勋指出,英伟达的架构已经渗透进每一个云平台和每一家机器人公司。这种无处不在的特性,使得任何针对英伟达架构优化的模型和算法,都能在第一时间触达全球用户。他进一步反驳了竞争对手在成本上的优势:“在全球范围内,英伟达的总拥有成本是无可匹敌的。没有一个专用集成电路平台能在训练和推理的性价比上胜过我们”。他认为,英伟达的真正力量源于这种“极致协同设计”,即从底层处理器到上层算法库的同步变革,这是任何单一芯片厂商都难以企及的。
在全球地缘政治的博弈中,出口管制成为了无法回避的话题。黄仁勋提出了一个独到的“五层蛋糕”理论,将人工智能产业分为能源、芯片、基础设施、模型和应用五层。他认为,每一层都至关重要,而美国应该力争在每一层都取得领先。针对向中国出口芯片的争议,黄仁勋警示称,放弃全球第二大市场不仅是商业损失,更是战略失误。
“过度限制会加速对手芯片产业的发展,迫使他们整个生态系统专注于内部架构的研发”。黄仁勋观察到,中国在能源、人工智能研究人才和开源模型贡献方面拥有巨大优势。他认为,“能源是另一种形式的芯片,当拥有充足能源时,可以弥补硬件的滞后”。例如,即使用旧制程制造的芯片,只要数量足够且能源供应充裕,依然能训练出极其强大的模型。他强调,保持美国技术在全球开发者中的“锁定效应”至关重要,“我们必须确保全球所有的开发者都在使用美国的技术栈,并为我们的生态系统做出贡献”。
在访谈的最后,黄仁勋回到了英伟达的初心:加速计算。他坚信,通用计算的效率已经走到了尽头,只有通过领域特定的加速,才能实现科学的突破。即使没有这场人工智能革命,英伟达依然会在地震数据处理、量子化学和图像处理等领域深耕。
“如果没有人工智能,我会感到难过,但英伟达的根本承诺从未改变:通过加速计算推动那些通用计算无法实现的应用”。黄仁勋将英伟达的成功归功于对这一愿景的长期坚守。即使在最困难的时期,他也从未停止过对特定领域库的投入。这种坚持不仅催生了深度学习的平民化,让全球的研究人员都能在个人电脑上进行复杂的科学实验,更让加速计算成为了现代科学研究不可或缺的基石。对于未来,他充满期待:“我们的使命是将加速计算带给全世界,不仅是为人工智能,更是为了扩展人类探索未知的能力边界”。
Dwarkesh: 我们已经看到许多软件公司的估值暴跌,因为人们预期 AI 将使软件变得商品化。人们有一种潜在的幼稚想法,即:你看,NVIDIA 将 GDSII 文件发送给 TSM,由 TSM 构建逻辑芯片。它还构建了交换机。然后将其与 SK-Hynix、Micron 和 Samsung 生产的 HBM 进行封装。接着将其发送给台湾的 ODM,在那里组装成机架。因此,从根本上讲,NVIDIA 正在编写由他人负责制造的软件。
黄仁勋: 如果软件被商品化了,那么 NVIDIA 是否也会被商品化?归根结底,总得有东西将电子转化为 Token。那种转换,没有任何……那种将电子转化为 Token 的转换过程。而且随着时间的推移让这些 Token 变得更有价值,我认为这很难,很难被完全商品化。从电子到 Token 的转变是一段不可思议的旅程。制造 Token 的过程,就好比让某一个分子比另一个分子更具价值,让某一个 Token 比另一个 Token 更具价值。在赋予 Token 价值的过程中所投入的艺术、工程、科学和发明创造,我们显然正在实时见证这一切的发生。
因此,这种转化、制造、制造、制造、制造,以及其中所蕴含的所有科学原理,远未被深度理解。而且,这段旅程也远未结束。所以我怀疑那件事不会发生。当然,我们会让它变得更高效。关于 Nvidia 的整个核心,事实上,你提出问题的方式,正是我们公司在我的心智模型中所呈现的样子。输入的是电子。输出的是 Token。Nvidia 正处于这个进程的中心。我们的工作是尽我们所能去实现必要的投入,同时尽可能减少冗余,以确保这一转型能够以极其强大的能力完成。
黄仁勋: 所谓尽可能减少冗余,是指任何非必要由我亲自完成的工作,我都会选择与他人合作,并将其纳入我的生态系统中去完成。
如果你审视今天的 Nvidia,我们会发现我们拥有规模庞大的合作伙伴生态系统,涵盖了上游供应链、下游供应链、所有计算机公司、所有应用开发者以及所有模型构建者。你可以把 AI 看作一个五层架构的蛋糕。我们在所有五层架构中都建立了生态系统。
因此,我们努力将亲力亲为的部分降至最低。但事实证明,我们必须去做的那些部分,难度高得离谱。而且我不认为这部分会变得商品化。事实上,我也不认为那些企业软件公司是工具制造商。当今大多数软件公司都是工具制造商。他们之中有一些并非如此,但也有一些属于工作流编纂系统。但对许多公司而言,它们是工具制造商。例如,Excel 是一个工具,PowerPoint 是一个工具,Cadence 制造工具,Synopsys 也制造工具。
我所看到的恰恰与人们所见到的相反。我认为智能体(agents)的数量将呈指数级增长。工具使用者的数量将呈指数级增长。而且,所有这些工具的实例数量极有可能将直线飙升。
Dwarkesh: Synopsys Design Compiler 的实例数量极有可能将直线飙升。
黄仁勋: 至于将要使用布局规划器(floor planners)、我们所有的布局工具以及我们的设计与规则检查器的智能体数量——我们今天受限于工程师的数量。在未来,这些工程师将得到大量智能体的支持。我们将以前所未有的方式探索设计空间,并使用我们今天所使用的这些工具。
所以我认为,工具的使用将推动这些软件公司实现飞速发展。之所以目前尚未实现,是因为目前的智能体在工具使用方面还不够出色。
Dwarkesh: 因此,要么是这些公司自行构建智能体,要么是智能体自身进化到足够强大,能够熟练使用这些工具。
黄仁勋: 我认为这将会是两者的结合。
Dwarkesh: 据我了解,在你们最新的备案文件中,你们与晶圆代工厂、存储器及封装厂商签订了近1000亿美元的采购承诺,而 SemiAnalysis 则报道称你们未来这类采购承诺的总额将达到2500亿美元。一种解读是,NVIDIA 的护城河确实在于你们锁定了这些稀缺组件多年的产能;也就是说,即便竞争对手拥有加速器,他们能否真的获得足够的存储器来制造产品呢?他们真的能获得制造产品所需的逻辑芯片吗?这确实是 NVIDIA 在未来几年的巨大护城河。
黄仁勋: 这是我们能做到的、但其他人难以实现的事情之一。我们之所以能够这样做,是因为我们已经在上游做出了巨大的投入承诺。其中一部分是明确的,即你所提到的那些承诺。而另一部分则是隐性的。
例如,许多上游投资都是由我们的供应链完成的,因为我会告诉那些首席执行官们:让我告诉你这个行业未来会有多大规模,让我解释其中的原因,让我们一起推导论证,并让你看到我所预见的前景。正是通过这种告知、激励并与各行各业的上游首席执行官们达成共识的过程,他们才愿意进行这些投资。那么,为什么他们愿意为我而非其他人进行投资呢?原因在于他们知道,我有能力采购他们的供应,并通过我的下游渠道将其销售出去。
事实是,Nvidia 的下游供应链和我们的下游需求规模非常庞大,这使得他们愿意在上游进行投资。所以,如果你看看 GTC,人们会对 GTC 的规模以及参会的人员感到惊叹,这是一个全方位的盛会。这是整个 AI 宇宙汇聚于此。他们之所以汇聚于此,是因为他们需要相互交流。我将他们汇聚在一起,是为了让下游能看到上游,上游能看到下游,并让他们所有人都能看到 AI 领域的所有进展。非常重要的一点是,他们都能接触到 AI 原生企业以及所有正在构建中的 AI 初创公司,了解正在发生的那些了不起的事情,从而让他们能亲眼见证我所讲述的一切。
所以我花了很多时间,直接或间接地向我们的供应链、合作伙伴以及生态系统告知我们所面临机遇。在我大多数的主题演讲中,有些人总会说,Jensen,你的主题演讲几乎是一个接一个的公告,像连珠炮一样。我们的演讲中总有一部分内容让人感到有些“折磨”,因为它们听起来几乎像是一场教学。事实上,这正是我心中所想。我需要确保整个供应链的上游和下游,以及整个生态系统,都能理解即将来临的是什么、为什么而来、何时到来、规模会有多大,并能够像我一样系统地进行思考。
所以我认为,正如你所描述的那种模式,我们确实有能力为未来进行建设。如果我们在未来几年达到万亿美元的规模,我们拥有相应的供应链来实现它。如果没有我们的触达能力和业务周转速度,就像现金流一样,供应链也存在流动性和周转率。如果某种架构的业务周转率很低,没有人会愿意为其构建供应链。因此,我们之所以能够维持这种规模,仅仅是因为我们的下游需求非常巨大;他们对此有清晰的认知,了解相关信息,并预见到了这一切的到来。这就是为什么我们能够以现有的规模实现我们的目标。
Dwarkesh: 我确实想更具体地了解上游是否能够跟上这种步伐。多年来,你们的营收一直在实现翻倍增长,你们提供给全球的产品数量也在逐年增加,甚至翻了三倍不止。以现在的体量实现翻倍增长,这确实令人难以置信。确实如此。是的。那么看看逻辑芯片领域,你们是 TSM N3 制程节点最大的客户,也是 N2 制程节点最大的客户之一。据某些分析显示,今年 AI 整体需求将占据 N3 产能的 60%,明年这一比例将达到 86%。当你们已经占据绝大多数份额时,如何实现翻倍增长?又如何做到年复一年地持续增长?那么我们现在是否处于一个阶段,即由于上游限制,AI 计算能力的增长速度必须放缓?你是否看到了绕过这些限制的方法?毕竟,我们究竟该如何实现晶圆厂产能每年翻倍的增长?
黄仁勋: 是的。在某种程度上,目前的瞬时需求确实超过了全球上游和下游的供应能力。在任何时刻,我们都可能受到水管工数量的限制,这种情况确实发生过。
Dwarkesh: 水管工可以参加明年的 GTC。没错。
黄仁勋: 顺便说一下,这是个好主意。但这是一种良好的状态。你想要的是一个市场,一个瞬时需求大于行业总供给的行业。反之则显然没那么好。如果供需差距过大,或者某个特定的零部件短缺严重,整个行业显然会蜂拥而至去解决这个问题。
例如,你会注意到现在人们已经很少谈论 CoWoS 了。原因在于,过去两年里,我们对它进行了极其密集的投入与攻关。我们进行了多次加倍再加倍的努力,现在我认为我们的状况已经相当不错了。TSM 现在也意识到,CoWoS 的供应能力必须与逻辑芯片及内存的需求保持同步。因此,他们正在扩大 CoWoS 的产能,正在不断扩充 CoWoS。将未来的封装技术提升到与逻辑制程同等的规模水平,这非常了不起。因为在很长一段时间里,CoWoS 还属于相当专业的领域。HBM 内存也曾是相对小众的技术。但它们现在已经不再是小众技术了。人们现在意识到,它们是主流的计算技术。
当然,我们现在也更有能力去影响供应链中更大范围的环节。过去,在AI革命的初期,我今天所说的这一切,其实五年前我就已经在说了。当时有些人相信了这一点,并进行了投资。例如,Sanjay 和 Micron 团队,我至今仍对那次会议记忆犹新,在那次会议上,我非常明确地阐述了未来将要发生什么、为何会发生,以及针对当今局势的预判。他们确实加大了投入,我们双方在 LPDDR 和 HBM 内存等领域展开了合作,他们对此进行了真正的投入。这显然对公司产生了巨大的推动作用。
有些人虽然起步稍晚,但现在他们都已入场。因此我认为,每一代技术演进、每一个瓶颈问题都会受到高度关注。现在,我们甚至提前数年就开始预判并解决这些瓶颈。例如,我们在 Lumentum、Coherent 以及整个硅光子生态系统中所做的投资就是证明。在过去的几年里,我们真正重塑了 Silicon Photonics 供应链的生态系统。我们围绕 TSMC 构建了完整的供应链。我们与他们在 CPO 方面展开合作,发明了一系列技术。我们将这些专利授权给供应链企业,以保持其开放与友好。
因此,我们正通过发明新技术和新工作方式来筹备供应链。包括工作流程、新型测试设备、双面探测技术,以及投资相关公司并帮助它们扩大产能。你可以看到,我们正试图塑造这个生态系统,使供应链能够做好充分准备,以支持所需的规模。
Dwarkesh: 看起来有些瓶颈比其他的更容易解决,比如扩展 CoWoS 相比扩展……顺便说一下,我选择了最难的一个。我是指哪一个?管道工。是的。
黄仁勋: 确实如此。没错,没错。我实际上选择了最难的那一个。水管工和电工。之所以这样,是因为——这也是我对那些宣扬工作终结和岗位消亡的末日论者所持有的担忧之一。而且,如果我们阻止人们成为软件工程师,我们终将面临软件工程师短缺的问题。同样的预言在10年前也出现过,当时一些末日论者告诫人们,无论做什么,千万别去做放射科医生。你可能还会听到网上留存着一些那样的视频。当时说放射科医生将是第一个被淘汰的职业。说这世界以后再也不需要放射科医生了。猜猜我们缺什么。
Dwarkesh: 放射科医生。噢,不过,回到刚才那个观点,也就是,有些东西你可以实现规模化,但其他东西,比如,你到底该如何实现,你到底如何才能每年制造出两倍的逻辑芯片?归根结底,这受到内存和逻辑芯片的瓶颈限制,而逻辑芯片又受到 EUV 的限制。你如何才能每年获得两倍数量的 EUV 光刻机?
黄仁勋: 逐年增长?这些都没有什么是不可能快速规模化的。你只需要,你可以做到,所有这些在两三年内都很容易完成。你只需要一个需求信号。这并非难事,一旦你,一旦你能制造出一台,你就能制造出 10 台。而且一旦你能制造出 10 台,你就能制造出一百万台。所以这些东西并不难复制。
Dwarkesh: 你会在供应链中深入到什么程度?你会去找 ASML 说,嘿,如果我展望三年后,为了让 Nvidia 实现年营收两万亿,我该怎么办?
黄仁勋: 你知道我们需要更多的 EUV 机器,其中一些需要我直接介入,一些是间接的,还有一些如果我能说服 TSM,ASML 就会被说服。所以我们必须思考那些至关重要的瓶颈。但如果 TSM 被说服了,几年后你就会拥有充足的 EUV 机器。这些瓶颈都不会持续超过两三年,一个都不会。与此同时,我们正在将计算效率提升 10 倍、20 倍,在从 Hopper 到 Blackwell 的案例中,甚至提升了 30 到 50 倍。
由于 CUDA 非常灵活,我们正在提出新的算法,开发各种新技术,以便在增加产能的同时提升效率。所以,这些事情都不会让我担心。让我担心的是我们下游的事情。那些阻碍能源供应的能源政策,如果没有能源,你就无法发展,无法创造一个产业。如果没有能源,你就无法创造一个全新的制造业。我们希望推动美国的再工业化。我们希望带回芯片制造、计算机制造以及封装产业,我们希望构建诸如 EV 和机器人之类的新兴事物,我们还希望建设 AI 工厂,而没有能源的话,这些都无法实现。而且这些项目需要很长的时间。但若是增加芯片产能,那是一个两到三年的问题。增加 CoWoS 产能,也是两到三年的问题。
Dwarkesh: 有趣。我觉得有时有些嘉宾会告诉我完全相反的观点。在这种情况下,我确实没有相关的技术知识来做评判。
黄仁勋: 最棒的一点就是你现在正在和专家对话。
Dwarkesh: 是啊。确实,确实。好的,我想问问关于你竞争对手的问题。是的。如果你看看 TPU,可以说全球排名前三的模型中有两个,即 Claude 和 Gemini,都是在上面训练出来的。TPU。这对 NVIDIA 未来的发展意味着什么?
黄仁勋: 我们做的是非常不同的东西,我们构建的事物大不相同。你要知道,NVIDIA 构建的是加速计算,而不是张量处理单元。加速计算被应用于各种领域,比如分子动力学、量子色动力学,它还被用于数据处理、数据帧、结构化数据和非结构化数据。它还被用于流体力学和粒子物理学等领域。
此外,我们也将其用于 AI。因此,加速计算的应用范围要多元得多,尽管 AI 是当下的热门话题,显然也非常重要且具有影响力。计算的范畴远不止于此。NVIDIA 所做的是重新发明了计算方式,从通用计算...转向了加速计算。
我们的市场覆盖范围远超任何 TPU 或 ASIC 所能达到的程度。
因此,审视我们的定位,我们是唯一一家能加速各类应用程序的公司。我们拥有一个庞大的生态系统。各种框架和算法都在 Nvidia 上运行。而且由于我们的计算机是为他人操作而设计的,任何操作者都可以购买我们的系统。大多数此类自研系统,你必须亲自担任操作员,因为它们的设计初衷并非为了具备足够灵活性供他人操作。
因此,正是因为任何人都能操作我们的系统,我们才得以进入每一个云平台,包括 Google、Amazon、Azure 和 OCI 等,所以,无论你是想通过租赁运营,还是自行运营;如果你想通过租赁运营,你最好拥有一个覆盖多个行业的庞大客户群,作为服务的承接方。如果你想自行运营,我们显然有能力协助你,例如为 Elon 的 XAI 提供支持。由于我们能够为任何公司、任何行业的操作者赋能,你可以利用它为 Lilly 构建用于科学研究和药物研发的超级计算机。
因此,我们可以帮助他们运行自己的超级计算机,并将其用于我们所加速的各类药物发现和生物科学领域。因此,我们可以处理一大堆无法仅靠 TPUs 实现的应用。因为 NVIDIA 也构建了极佳的 CUDA 作为张量处理单元,而且它确实涵盖了数据处理、计算、AI 等各个生命周期。所以,我们的市场机会要大得多。我们的触及范围也广得多。正因为我们规模宏大,基本上支持了全球所有的应用,你可以在任何地方构建 NVIDIA 系统,并且确信会有客户为其买单。所以这完全是另一码事。
Dwarkesh: 这可能是一个比较长的问题,但你现在的营收非常惊人。而这些营收大部分……你们并不是靠制药和量子计算获得每季度 600 亿美元的收入。你们获得这些收入是因为 AI 是一项史无前例的技术,并且正以史无前例的速度发展。那么问题来了,对于 AI 而言,什么是最好的方案?
我虽然不了解具体细节,但我和我的 AI 研究员朋友交流时,他们说,你看,当我使用 TPU 时,它就是一个巨大的脉动阵列,非常适合进行矩阵乘法,而 GPU 则非常灵活。当你有大量分支指令,或者存在不规则的内存访问时,GPU 的表现非常出色。但这些,什么是 AI?其实就是一遍又一遍、反反复复地执行这些非常可预测的矩阵乘法。而且你不需要为了束调度器,或者说为了在线程和内存库之间切换,去牺牲任何芯片面积。因此,TPU 确实针对目前在线的计算需求中,绝大多数的收入增长和用例进行了优化。是啊,我很好奇你是如何看待这一点的。
黄仁勋: 矩阵乘法确实是 AI 的重要组成部分。但它并非 AI 的全部。如果你想提出一种新的注意力机制,或者想以不同的方式进行分解,如果你想完全构思一种全新的架构,例如,混合型 SSM,如果你想使用或者想创建一种以某种方式融合了 diffusion 和自回归的模型,那么你需要的是一种通用的、可编程的架构。而我们可以运行你能想象到的任何东西。这就是它的优势所在。它能够更加轻松、频繁地实现新算法的发明。正因如此,它是一个可编程的系统。而发明新算法的能力,正是AI发展如此迅速的根本原因。
TPU 和其他事物一样,都受到摩尔定律的影响。我们知道摩尔定律每年大约提升 25%。
Dwarkesh: 因此,要实现 10 倍甚至 100 倍的飞跃,唯一的方法就是从根本上改变算法及其计算方式。
黄仁勋: 这正是 Nvidia 的根本优势。我们之所以能够让 Blackwell 的性能达到 Hopper 的 50 倍,唯一的原因就在于此。我之前说是 35 倍。当我最初宣布时,Blackwell 的能效将比 Hopper 提升 35 倍。没人相信这一点。然后,Dylan 写了一篇文章。他说,实际上,我当时还保守了。实际上是 50 倍。仅靠摩尔定律是无法合理解释这一点的。
因此,我们解决该问题的方法是采用新的模型,即 M-O-E,通过在计算系统中进行并行化、解耦和分布式处理;如果没有能力真正深入底层并利用 CUDA 开发出新的内核,这确实很难做到。
所以,我们将架构的可编程性、NVIDIA 作为一家极致协同设计公司的属性(我们甚至可以将部分计算卸载到结构本身,例如 MVLink,或卸载到网络中,如 Spectrum X)相结合,并能够在处理器、系统、结构、库和算法层面同时实现变革,这一切都是同步完成的。
如果没有 CUDA 来实现这些,我甚至不知道从何入手。
Dwarkesh: 我的赞助商 Crusoe 是首批提供 NVIDIA 的 Blackwell 和 Blackwell Ultra 平台的云服务商之一。他们刚刚宣布了 NVIDIA Vera Rumen 的部署。计划于今年晚些时候发布。但获取尖端硬件只是故事的一部分。例如,大多数推理引擎已经为单个用户的前向传递执行了 KV 缓存。但 Crusoe 在 GPU 之间跨用户执行此操作。因此,如果一千个智能体在同一个系统提示词下运行,Crusoe 只需计算一次 KV 缓存,集群中的每一个 GPU 就能使用它。这一点尤为重要,因为系统正变得越来越智能化,需要更长的前缀来使用工具和访问文件。在最近的一项基准测试中,Crusoe 的首字延迟速度提升了高达 10 倍,吞吐量比 vLLM 高出 5 倍。这只是您应该选择在 Crusoe 上运行推理工作负载的众多原因之一。如果您需要 GPU 进行训练,也无需切换云服务商。Crusoe 在这方面同样能满足您的需求。请访问 crusoe.ai/dwarkesh 了解更多信息。
这引出了一个关于 NVIDIA 客户群体的问题,即如果 60% 的收入来自这五大超大规模云服务商,那么在拥有不同客户的另一个时代,比如说如果是进行实验的教授们,情况会如何。他们之所以受益良多,是因为他们需要 CUDA。他们无法使用其他加速器。他们只需要在 CUDA 上运行 PyTorch,并让一切都经过优化即可。但如果你拥有这些超大规模数据中心,他们就有资源去编写自己的内核。事实上,为了获得其特定架构所需的最后 5% 的额外性能,他们必须这样做。Anthropic 和 Google 大多在运行他们自己的加速器或 TPU 并进行训练。但即使是使用 GPU 的 OpenAI 也有 Triton,他们认为:“我们需要自己的内核。”因此,他们深入到了 CUDA C++,不再使用 cuBLAS、NCCL 等工具,而是拥有了自己的技术栈,并且该技术栈也能编译到其他加速器上。那么,如果你的大多数客户能够且确实在开发 CUDA 的替代品,CUDA 在多大程度上真的能成为在 NVIDIA 上实现前沿 AI 的关键?
黄仁勋: CUDA 是一个丰富的生态系统。所以,如果你想在任何计算机上构建应用,首先在 CUDA 上构建是非常明智的。而且因为生态系统非常丰富,我们支持每一个框架。如果你想创建自定义内核,或者如果你有需求,例如,我们在 Triton 上投入了巨大贡献。因此,Triton 的后端包含大量的 NVIDIA 技术。我们很高兴能帮助每一个框架发展得尽可能出色。
而且现在有非常非常多的框架。有 Triton,有 vLLM,还有更多,现在还有一大批新的强化学习框架涌现出来。有 vLLM,有 NeMo RL,还有一大堆新的。随着后训练和强化学习的发展,整个领域正在爆发式增长,所以如果你想基于某种架构进行构建,基于 CUDA 构建是最合理的选择。因为你知道这个生态系统非常棒。你知道如果出现了问题,更有可能是你代码里的问题,而不是底层那堆海量代码的问题。要知道,在构建这些系统时,千万别忘了你所面对的代码量。当程序运行出现故障时,问题究竟出在你身上,还是出在计算机身上?你当然希望总是你自己的问题,并能够始终信任计算机。显然,我们自身仍然存在大量难以计数的错误,但我们的系统经过了极其充分的磨合,至少你可以将其作为基础进行二次开发。
所以,首要因素在于生态系统的丰富程度、可编程性以及功能性。第二个因素是,如果你是一名开发者,并且正在构建任何东西,那么你最渴望拥有的、高于一切的东西就是装机量。你希望你运行的软件能够运行在海量的其他计算机上。你不想只是为了构建一个软件而构建。你构建软件并非仅仅为了自用。你是为了你的集群,或者...为了其他所有人的集群,因为你是一名框架构建者。而 Nvidia 的 CUDA 生态系统终究是其最大的财富。我们现在拥有,我也不清楚具体多少,大概数亿个 GPU。每个云端都有它们的身影。这可以追溯到 A10、A100、H100、H200、L 系列以及 P 系列。它们种类繁多。而且它们有着各种尺寸和形态。如果你是一家机器人公司,你会希望那个 CUDA 栈能够真正在机器人内部运行。我们确实无处不在。因此,安装基数意味着一旦你开发了软件,一旦你开发了模型,它就能够在任何地方发挥作用。所以,这一安装基数的价值是极其难以估量的。
最后,我们存在于每一个云端这一事实,使我们真正做到了独一无二。因为你们是一家AI公司,也是一名AI开发者,你们并不确定最终会与哪家CSP合作。以及你们希望在哪里运行它。如果你愿意,我们可以在任何地方运行它,包括在本地(on-prem)部署。所以我认为生态系统的丰富性、安装基数的广泛性以及我们所处位置的多功能性,这种组合使得CUDA具有不可估量的价值。
Dwarkesh: 这非常有道理。我比较好奇的是,这些优势对于你们的主要客户来说是否真的重要。例如,对于那些真正有能力构建自己软件栈的人来说,这些优势可能很重要,而他们贡献了你们大部分的收入。特别是在AI在具有严密验证循环的任务上表现得越来越出色,且在此类任务上进行RL(强化学习)的情况下。关于如何编写一个能在纵向扩展(scale-up)架构中最高效执行 Attention 或 MLP 的 kernel,这是一个反馈循环非常明确的问题。所有人,所有的超大规模云厂商(hypers)都能为自己编写这些定制的 kernel 吗?他们或许依然会这样做,Nvidia 目前仍拥有出色的性能价格比,因此他们可能还是更倾向于使用 Nvidia。但接下来的问题是,竞争是否会仅仅演变为谁能以相同的价格提供最好的规格、最好的浮点运算性能以及内存和内存带宽?从历史来看,得益于 CUDA 生态,Nvidia 在人工智能硬件和软件领域的利润率一直处于领先地位,且至今仍保持在 70% 以上。那么问题来了,这种利润率能够持续吗?如果对于大多数客户而言,他们实际上有能力通过自研来替代 CUDA 生态的话。
黄仁勋: 我们分配到这些人工智能实验室的工程师数量是惊人的。与他们合作,优化他们的技术栈。之所以这样做,是因为没有人比我们更了解自己的架构。这些架构并不像 CPU 那样具有通用性。CPU 就像一辆凯迪拉克,它总是一辆舒适的巡航车。它从不会跑得太快。每个人都能把它开得很好。
Dwarkesh: 它配备了定速巡航,一切都很简单。
黄仁勋: 但在很多方面,NVIDIA 的 GPU 加速器就像是 F1 赛车。我可以想象每个人都能以每小时 100 英里的速度驾驶它。但要将其推向极限,需要相当多的专业知识。我们使用大量的 AI 来创建我们所拥有的内核(kernels)。而且我很确定,在相当长的一段时间内,我们仍将被需要。因此,我们的专业知识通常能帮助我们的 AI 实验室合作伙伴轻松地从他们的技术栈中再获得 2 倍的性能提升。我们通过这种方式实现并不罕见。当我们完成对他们的技术栈或特定内核的优化时,他们的模型速度提升了 3 倍、2 倍或 50%。这是一个巨大的数字,特别是当你谈论他们所拥有的装机基数、所有的 Hopper 和 Blackwell 时,当你将其提升两倍,收入也就翻了一番。这直接转化为收入。
NVIDIA 的计算堆栈是性能表现最卓越的。在全球范围内,其 TCO 是无可匹敌的。目前没有任何人能向我证明,当今世界上有任何单一平台的性能 TCO 比率能优于 NVIDIA。一家公司都没有。事实上,基准测试结果就摆在那里。Dillon's,没错,MLPerf Inference 就在那里供所有人使用。结果没有任何一个 TPU 能胜出。在训练方面也同样无法胜出。我鼓励他们使用 MLPerf Inference。并展示他们那所谓的惊人推理成本。这真的、真的很难。没人愿意现身。MLPerf,我欢迎 Trainium 来展示他们一直声称的 40% 的优势。我很乐意听听他们展示 TPU 的成本优势。在我看来这毫无道理。这完全没有任何道理。从第一性原理来看,这毫无道理。
所以我认为,我认为,我们之所以如此成功,仅仅是因为我们的 TCO 非常出色。其次,你说我们 60% 的客户是前五大客户,但其中大部分业务是外部业务。例如,AWS 中大部分的 NVIDIA 业务是针对外部客户的,而非内部使用。我们在 Azure 的大多数客户,很明显,我们所有的客户都是外部客户。OCI 的所有客户均为外部客户,而非内部使用。他们之所以青睐我们,是因为我们的覆盖面非常广,能够为他们带来全球所有优质的客户。他们全部基于 NVIDIA 构建。而所有这些公司之所以基于 NVIDIA 构建,是因为我们的覆盖面和通用性都非常出色。因此,我认为这一飞轮效应的核心在于装机量、我们架构的可编程性、生态系统的丰富性,以及目前全球有数以万计的人工智能公司这一事实。如果你是这些人工智能初创公司中的一员,你会选择哪种架构?你会选择应用最广泛的架构,而我们正是全球应用最广泛的。拥有最大装机量的架构。
我们拥有最大的装机量。
并且拥有丰富的生态系统。所以,这就是飞轮效应。这就是为什么将两者结合起来,我们的每美元性价比如此之高,以至于它们拥有成本最低的 token。我们的每瓦性能是全球最高的。因此,如果这些公司中的一家,或者我们的合作伙伴建造了一个 1 吉瓦的数据中心,那么该数据中心最好能产出最大化的收入和 token 数量,这直接转化为收入,你希望生成尽可能多的 token,从而使该数据中心的收入最大化。我们拥有全球每瓦 token 产出最高的架构。最后,如果你的目标是租赁基础设施。我们拥有全球最多的客户。这就是为什么这种模式行之有效的原因。
Dwarkesh: 有意思。我想问题归根结底在于这里的实际市场结构是什么?因为即使存在其他公司,也可能出现一个有成千上万家 AI 公司,且它们在算力方面份额大致相当的世界。但即使通过这五大超大规模云服务商,真正使用这些计算资源的人是 Amazon、Anthropic、OpenAI 以及那些规模庞大的基础模型实验室,他们自身负担得起,也有能力让不同的加速器发挥作用。
黄仁勋: 不,我认为你的假设前提是错误的。
Dwarkesh: 也许吧。让我问你一个稍微不同的问题,那就是……
黄仁勋: 回头修正你的前提。
Dwarkesh: 好的。让我先回答另一个问题,那就是,好的,你所说的一切……
黄仁勋: 但一定要让我回头去修正它,因为它对 AI 来说太重要了。它对科学的未来太重要了。它对行业的未来太重要了。
Dwarkesh: 那个前提,那个前提,听着。让我先把问题问完,然后你可以一并回答。那么,如果关于性价比和功耗比等方面的所有说法都是真的,你怎么看?是真的吗?你认为为什么会这样呢?比如 Anthropic 几天前刚刚宣布,他们与 Broadcom 和 Google 达成了一项价值数十亿美元的交易,用于购买 TPU 以及大部分算力。显然对于 Google 而言,TPU 是其算力的核心。所以,如果我审视这些大型 AI 公司,似乎在某个阶段它们全都依赖 Nvidia,但现在情况并非如此。因此我很好奇,如果这些理论在纸面上是正确的,为什么它们还要选择其他的加速器?
黄仁勋: Anthropic 是一个特例,而非趋势。如果没有 Anthropic,TPU 为什么会有任何增长?这百分之百是 Anthropic 的原因。如果没有 Anthropic,Trainium 为什么会有任何增长?这百分之百是 Anthropic 的原因。我认为这一点是众所周知的,也被大家充分理解。并不是说现在有大量的 ASIC 机会。只有一个 Anthropic。
Dwarkesh: 但是 OpenAI 在处理 MD 问题。他们正在构建自己的 Triton 加速器。
黄仁勋: 但他们主要还是。我想我们都能承认,他们绝大多数还是依赖 NVIDIA。我们未来仍将进行大量的合作。而且我们并不会,我也不会因为其他人使用其他产品并进行尝试而感到被冒犯。如果他们不去尝试这些其他的东西,又怎么会知道我们的产品有多好呢?有时你确实需要被提醒这一点。而且我们必须不断地巩固我们所处的地位。市场上总是有各种宏大的论调,但看看有多少 ASIC 项目最终被取消了。仅仅打算制造一款 ASIC 是不够的,你还得造出比 Nvidia 更好的产品。而要超越 Nvidia 绝非易事。这并不明智。事实上。Nvidia 一定是在某些方面出现了严重的失误。因为凭借我们的规模和研发速度,我们是世界上唯一一家能够做到每年都实现重大技术跨越的公司。
Dwarkesh: 我想他们的逻辑是,嘿,产品未必需要更好。只要性能表现不比我们差 70% 以上就可以了,因为他们支付的是 70% 的利润率。
黄仁勋: 不,不,不,别忘了。即使是在 ASIC 的领域,利润率其实也相当高。比方说,Nvidia 的利润率是 70%。
Dwarkesh: 但在 ASIC 的利润中,你到底节省了什么?你是说像 Broadcom 之类的吗?
黄仁勋: 没错,确实。你总得付钱给别人。所以我认为,据我所知,ASIC 的利润率非常可观。而且他们也相信这一点,他们对此深信不疑。所以他们对自身惊人的 ASIC 利润率感到相当自豪。
所以你问了为什么。很久以前,我们只是没有能力做到这一点。这是,这是,而且当时,当时,我并没有深刻地领悟到建立一个像 OpenAI 和 Anthropic 这样的基础 AI 实验室会有多困难。事实上,他们需要供应商本身进行巨额投资,而我们当时并不具备对 Anthropic 进行数十亿美元投资的条件以便他们能够使用我们的算力。但 Google 和 AWS 有这个能力,他们在最初投入了巨额资金,作为回报,Anthropic 使用了他们的算力。我们当时只是没有能力这样做。我也不,我想说我的错误在于我没有深刻地领悟到他们确实别无选择,风险投资机构永远不会投入 50 亿、100 亿美元的投资给一个 AI 实验室,并指望它能像 Anthropic 一样成功。
这就是我的失误,但即使我理解了这一点,我认为我们当时也无法做到这一点。但我不会再犯同样的错误了。我很高兴能投资 OpenAI,也很高兴能帮助他们实现规模化,我认为这样做至关重要。后来当 Anthropic 来找我们时,我很高兴能成为他们的投资者,也很高兴能帮助他们实现规模化。只是当时我们确实没能做到这一点。如果时光可以倒流,Nvidia 在那时就能达到我们现在的规模,我非常乐意去做这件事。
Dwarkesh: 这其实很有趣,多年来 Nvidia 一直是这样的存在。一家在 AI 领域赚钱,赚大钱的公司。而现在你正在进行投资。据报道,你在 OpenAI 上投入了高达 300 亿,在 Anthropic 上投入了 100 亿。但现在他们的估值已经上升,我相信未来还会继续上升。多年来,你一直在向他们提供算力,你也看到了他们的发展方向,而就在几年前甚至一年前,在某些情况下,他们的价值只有现在的大约十分之一。而且你当时拥有充足的现金流。存在这样一种可能,即 Nvidia 本身成为一家基础模型实验室,通过巨额投资使之成为可能,或者以现在的估值在更早的时候就达成你现在所做的这些交易,而且你有足够的现金去实现它。所以我很好奇,为什么没有更早地去做这件事?
黄仁勋: 我们尽我们所能尽早地完成了它。我们尽我们所能尽早地完成了它。
如果我能做到的话,我会更早地去执行。
在 Anthropic 需要我们提供支持的时候,我们当时并没有能力做到这一点。这不是,这不是,这并不符合我们的经营理念。
Dwarkesh: 那是怎么回事,是因为资金问题还是其他原因?
黄仁勋: 投资规模问题。要知道,我们当时从没在公司外部进行过投资,投入的资金也不多。
而且我们那时并没有意识到我们需要这样做。
我一直认为他们大可以去寻求风险投资(VC)。就像所有公司做的那样。但他们想要实现的目标,是无法通过风险投资来完成的。OpenAI 想要做的事情无法通过风险投资实现。我现在意识到了这一点。我当时并不了解。但这就是他们的天才之处。这就是他们聪明的原因,你懂的。于是他们意识到,当时他们必须采取那样的行动。我很高兴他们确实这样做了,尽管,尽管我们,我们,我们抓住了导致 Anthropic 不得不转向其他人。但我仍然为这件事的发生感到高兴。Anthropic 的存在对世界而言是件好事。我为此感到欣喜。
Dwarkesh: 我想你依然在赚取巨额利润,而且每个季度都在赚得更多。即便如此,有些遗憾也是可以理解的。所以问题依然存在,既然我们已经到了这一步,你一直在赚取这些钱,那么 Nvidia 应该用它们来做什么呢?有一个答案是这样的,你看,现在有一个非常流行的中间商生态系统。他们致力于为这些实验室将资本支出(CAPEX)转化为运营支出(OPEX),以便实验室能够租用算力,因为这些芯片确实非常昂贵。由于机器学习(AML)技术的不断进步,这些芯片在整个生命周期内能创造丰厚的收益。它们所生成的代币价值在不断增加,但其初始部署成本很高。NVIDIA 拥有资本支出所需的资金。事实上,据报道,你们为 CoreWeave 提供了担保,我们有高达 63 亿美元的额度,并且已经投资了 20 亿美元。但话说回来,为什么 NVIDIA 自己不成为云服务商呢?为什么不亲自成为超大规模云服务商(hyper-scaler)并将这些算力租赁出去呢?你们拥有足够的现金来完成这件事。
黄仁勋: 这是公司的经营哲学,我认为这是明智的。我们应该做必要的事情,尽可能少地介入其他领域。这意味着我们构建计算平台所做的工作,如果我们不去做,我真心认为这项工作将无法完成。如果我们没有承担我们所承担的风险,如果我们没有以那种方式构建 NVLink,如果我们没有构建整个技术栈,如果我们没有以那种方式创造生态系统,如果我们没有在 CUDA 上投入 20 年时间(尽管其中大部分时间都在亏损),如果我们没有去做,其他人也不会去做。如果我们没有创建所有 CUDAX 库,使它们具备领域特定性——要知道,这是在十五年前,我们就致力于开发领域特定库,因为我们意识到,如果我们不创建这些领域特定库,无论是用于光线追踪、图像生成,还是早期的 AI 工作,如果我们不为数据处理、结构化数据处理或向量数据处理构建这些模型,根本就不会有人去做。对此我深信不疑。
我们为计算光刻技术创建了一个名为 cuLitho 的库。如果我们不创建它,也不会有其他人去做。因此,如果我们没有做我们所做的一切,加速计算就不会取得今天这样的进展。所以我们理应这样做。我们应该全心全意地投入公司所有的力量去完成它。然而,世界上有很多云平台。如果我不去做,别人也会出现去做。因此,遵循这一准则,即“所需即可,尽力精简”的哲学,这一哲学至今仍存在于我们的公司中。我所做的每一件事,都是通过这个视角来看待的。
以云服务为例,如果我们不去支持 CoreWeave 的存在,这些新一代云、这些 AI 云将不复存在。如果我们没有帮助 CoreWeave 存在,他们就不会存在。如果我们没有支持 Nscale,他们也不会有今天的成就。如果我们没有支持 Nebius,他们也不会成为今天的样子。现在他们发展得非常好,表现极其出色。这是一种商业模式吗?不是。我们应该做到所需即可,尽力精简。
因此,我们正在努力,我们投资于我们的生态系统,因为我希望我们的生态系统能够蓬勃发展。
我希望我们的架构和 AI 能够尽可能多地与不同行业及国家建立连接,并让整个地球能够依托于 AI 以及 American tech stack 构建起来。因此,我认为这一愿景正是我们所追求的目标。
Dwarkesh: 提到你刚才谈到的一点,现在有许多非常出色的基础模型公司,我们致力于投资其中的每一家。
黄仁勋: 这也是我们所采取的策略之一。我们不会去预判赢家。我们倾向于且有必要去支持所有人。这也是我们乐在其中的一部分。这对我们的业务而言是至关重要的。但我们也特意不去选择特定的赢家。所以,当我投资其中一家时,我是在投资所有的这些公司。
Dwarkesh: 你为什么总是刻意不去评选赢家?
黄仁勋: 第一,因为那不是我们的工作。第二,当 Nvidia 最初起步时,有 60 家图形公司,60 家 3D 图形公司。我们是唯一存活下来的一家。如果你当时审视那 60 家图形公司,并问自己哪一家能成功,Nvidia 在那份名单上绝对是处于最不可能成功的位置。那是在你们出生很久之前的事了,Nvidia 的图形架构是完全错误的。不仅仅是有一点错。我们创造了一种完全错误的架构。对于开发者来说,这种架构根本无法提供支持。它注定是不可能成功的。我们基于良好的第一性原理对它进行了充分的推演。但我们最终得出了错误的方案。而且所有人都会认为我们出局了。可我们现在依然屹立于此。所以我足够谦逊地认识到,不要去预设赢家。要么让它们全部自力更生,要么让它们各自照顾好自己。所有的这些。
Dwarkesh: 有一点我没明白,你说过,看,我们并不是因为有新的云服务商出现就优先支持它们,也不是为了扶持它们。但你也提到了一系列 neoclouds,并表示如果不是因为 NVIDIA,他们根本就不会存在。是的。那么这两点是如何协调一致的呢?
黄仁勋: 首先,他们需要有想要生存下去的意愿,并主动向我们寻求帮助。当他们有了生存意愿,制定了商业计划,并且具备了相应的专业知识与热情时。他们显然必须自身具备一定的能力。但归根结底,如果他们需要一些投资,而我们需要助力他们起步,我们会在他们身后支持。但他们越早让自己的飞轮转动起来越好。你刚才问我们是否想涉足融资业务?答案是不想。没错,我们不想,因为市面上已经有专门从事融资业务的人了。我们宁愿与所有从事融资业务的人合作,也不愿自己成为出资方。
因此,我认为我们的目标是专注于我们所擅长的事情,保持商业模式尽可能简单,并支持我们的生态系统。当像 OpenAI 这样规模的公司需要 300 亿美元的投资时,因为他们仍处于 IPO 之前。我们深信他们。我们深信,我深信他们将会,他们现在已经是一家非凡的公司了。他们将会变得不可思议。公司。世界需要他们的存在。世界希望他们的存在。我希望他们的存在。他们拥有一切,他们有顺风之势。让我们支持他们,让他们实现规模化。因此,对于这些投资,我们会去做,因为他们需要我们这样做。而且,我们并不是想做得越多越好。我们追求的是尽可能少地去做。
Dwarkesh: 我花了太多时间在 Google Docs 和 Chatbots 之间来回复制粘贴文本。所以我构建了一个类似于写作光标的工具,它的运行方式符合我的预期。即我心目中 AI 联合研究员应有的运作模式。我可以标记它,它能通过内联评论线程与我对话,并帮助我深入挖掘和进行头脑风暴。整个过程是我利用 Cursor 及其全新的 Composer 2 模型在周末完成的。使用许多代理式编码工具时,我总觉得完全不了解底层的运作机制。我不得不放弃控制权,只能祈祷结果一切顺利。但 Cursor 让我可以在掌控实现过程的同时,尝试各种不同的想法。我的大部分头脑风暴都是在 agents 窗口中完成的。在准备好一些基础文件后,我使用差异对比窗口来跟踪更改。少数几次我需要手动进行快速调整时,我就直接使用了编辑器。如果你想亲自尝试我的 AI Co-researcher,我已经在描述中放了 GitHub 仓库链接。如果你有一直想构建的工具,你应该把它实现出来。前往 cursor.com/dwarkesh 即可开始。
这可能是一个显而易见的问题,但我们已经在 GPU 短缺的现状下生活了很多年。而且随着模型性能的提升,这种短缺状况愈演愈烈。我们确实面临 GPU 短缺的问题。是的。没错。Nvidia 以分配稀缺资源而闻名,他们不仅仅是价高者得,而是考虑如何确保这些新一代云服务商能够生存下去。我们给 CoreWeave 一些,给 Crusoe 一些。给 Lambda 一些。这对 NVIDIA 来说为什么是好事?首先,你是否认同这种市场碎片化的描述?
黄仁勋: 不。不认同。你的前提本身就是错的。我们对这些事情保持着足够的关注。我们非常关注这些事情。首先,如果你不下达 PO(采购订单),那么说再多的话也不会有任何作用。
所以,在我们拿到 PO 之前,我们能做什么呢?因此,首要任务就是与各方共同努力,完成预测。因为这些设施的建设周期很长,数据中心的建设也需要很长时间。因此,我们通过预测来协调供需关系等事项。好的,这就是首要任务。也是如此。我们已经尝试与尽可能多的人进行预测,但归根结底,你仍然必须下单。也许,也许由于某种原因你没有下单,我又能怎么办呢?所以在某种程度上,只能采取先进先出的原则。但除此之外,如果你还没有准备好,因为你的数据中心尚未就绪,或者某些组件尚未齐备而无法让你建立数据中心,我们可能会做出决定。决定先为其他客户提供服务。这只是为了最大化我们自有工厂的吞吐量。因此我们可能会在那里做一些调整。
除此之外,优先级的原则是先进先出。你必须下达 PO。如果你不下达 PO。当然,现在有一些关于此事的传闻。比如这件事最初是因为一篇关于 Larry 和 Elon 与我共进晚餐的文章,文中说他们乞求获取 GPU。那件事从未发生过。我们确实共进过晚餐。我们确实共进过晚餐。那是一顿很棒的晚餐。他们从未乞求过 GPU。他们只是下了订单而已。一旦他们下达订单,我们会尽力为他们提供产能。我们并不复杂。
Dwarkesh: 好的。听起来是存在一个排队机制,然后根据你们的数据中心是否准备就绪,以及你们下达采购订单的时间,你们会在特定的时间内获得产品。但听起来并不是出价高的人就能直接拿到。有什么理由要这样做吗?
黄仁勋: 我们从不那样做。
Dwarkesh: 好的。那么,为什么不直接采取价高者得的策略呢?
黄仁勋: 因为那是一种糟糕的商业惯例。你们设定好价格,然后人们自行决定是否购买。而且,我知道,芯片行业的其他人会在需求旺盛时调整价格。但我们不会。我们就是不会。这从来都不是我们的惯例。你可以信赖我们。我更倾向于做一个可靠的人,成为行业的基础。你不需要,你不需要去猜测。如果我给你报了价,那就是我们给出的报价。仅此而已。即使需求激增,那也随它去吧。
Dwarkesh: 而在另一端,这就是为什么你们与 TSM 有着富有成效的合作关系,是的。是的。
黄仁勋:是的。Nvidia 一直在开展业务。我想我们与他们合作的时间,快要满 30 年了。而且 Nvidia 和 TSM 之间并没有签署法律合同。这中间,总会存在某种粗略的公平。有时我是对的。有时我是错的。有时我能谈成更好的交易。有时我得到的条件并不理想。但总的来说,从整体上看,这种合作关系令人难以置信。我完全可以信任他们。我完全可以依赖他们。
你的成本,你的 Token 成本每年都会降低一个数量级。我可以指望这一点,就像我可以指望时钟运作一样。你可以信赖 NVIDIA 的一点是,今年我们将推出的 Vera Rubin 表现将非常出色。明年,Vera Rubin Ultra 即将面世。后年,Feynman 也将推出。再后一年,我们将推出尚未公布名称的产品。因此,每一年你都可以信赖我们。如果你有其他想法,你恐怕得去世界上寻找另一支 ASIC 团队了。选择你的 ASIC 团队,你可以说,我可以押上全部身家,我可以押上我的整个事业,确信你们每年都会在这里为我提供支持。
Dwarkesh:我刚才提到了 TSMC。历史上没有任何其他代工厂。你敢这么说吗?
黄仁勋:你可以对 Nvidia 这么说。在今天。你可以每年都指望我们。如果你想购买价值 10 亿美元的 AI 工厂算力,没问题。如果你想购买 1 亿美元的算力,也没问题。你想买价值 1000 万美元的产品。或者只买一个机架,这没问题。或者只买一张显卡。好的,没问题。如果你想下单一个价值 1000 亿美元的 AI 工厂,没问题。我们是当今世界上唯一一家能让你这么说的公司。关于 TSM 我也可以这么说。我想买一个。买价值 10 亿美元的产品。没问题。我们只需要经历规划的过程,做所有成熟的人会做的事情。明白吗?
Dwarkesh:所以我认为,Nvidia 能够成为世界 AI 产业基石的这种能力,是我们花费了几十年时间才达到的地位,这背后有着巨大的投入和巨大的奉献。
黄仁勋:我们公司的稳定性以及我们公司的一贯性真的、真的非常重要。
Dwarkesh:好的。我想问一下关于中国的问题。我一直喜欢采取,其实我不知道自己对于向中国出售芯片是否有利的看法,但我喜欢与我的嘉宾唱反调。所以当 Dario 来的时候,他支持出口管制,我问他,为什么美国和中国不能在各自的数据中心里都拥有天才之国?但既然你站在对立面,我会以相反的方式问你。你看,考虑这个问题的一个角度是,Anthropic 最近几天宣布,他们不会公开一个名为 Mythos 的模型,因为他们认为该模型具备极其强大的网络攻击能力,在确保这些零日漏洞被修复之前,他们认为世界还没有准备好迎接它。但他们表示,它在每一个主流操作系统和每一个浏览器中都发现了数以千计的高危漏洞。它在 Open BSD 中发现了一个漏洞,而该操作系统正是为了杜绝零日漏洞而专门设计的,它还发现了一个存在了 27 年之久的漏洞。如果中国公司、中国实验室和中国政府能够获得人工智能芯片来训练像 Claude Mythos 这样具备网络攻击能力模型,并利用更强大的算力运行数百万个实例。问题在于,这是否对美国公司和美国国家安全构成了威胁?
黄仁勋:首先,Mythos 是由一家非凡的公司在相当平庸的算力及相当普通的算力规模下训练出来的。因此,它所采用的算力规模和类型在中国随处可见。所以首先必须意识到,中国本身就拥有芯片。他们生产了全球 60% 的主流芯片,甚至更多。这对他们来说是一个非常庞大的产业。他们拥有一些世界上最伟大的计算机科学家。正如你所知,这些人工智能实验室里的大多数人工智能研究人员都是中国人。他们拥有全球 50% 的人工智能研究人员。所以问题在于,如果你担心他们,那么在考虑他们已经拥有的所有资产时,应该怎么办?他们拥有充沛的能源。他们拥有充足的芯片。他们网罗了大多数 AI 研究人员。如果你担心他们,那么创造大量能源的最佳途径是什么?为了创造一个安全的世界。
Dwarkesh:将他们受害者化,将他们变成敌人,很可能不是最好的答案。
黄仁勋:他们是对手。我们希望 United States 获胜。但我认为进行对话和进行研究对话可能是最安全的做法。这是一个明显的盲区,因为我们目前将中国视为对手。我们的 AI 研究人员与他们的 AI 研究人员之间保持对话至关重要。我们双方必须设法就如何使用以及不应将 AI 用于何种用途达成共识。关于在软件中查找漏洞,这当然是 AI 理应完成的工作。它会发现大量软件中的漏洞吗?当然会。软件中存在大量的漏洞。
Dwarkesh:AI 软件本身也存在很多漏洞。
黄仁勋:所以,这就是 AI 应该做的事情。我很高兴 AI 已经达到了一定的水平,能够帮助我们极大提高生产力。
Dwarkesh:被低估的事物之一是围绕网络安全、AI 网络安全、AI 安全、AI 隐私和 AI 安全性所形成的丰富生态系统。
黄仁勋:那个由 AI 初创公司组成的庞大生态系统正在为我们创造未来,在这个未来中,你拥有一个强大的 AI agent,周围环绕着数以千计负责保障其安全与防护的 AI agent。这个未来注定会实现。认为会有一个无人监管的 AI agent 到处运行的想法简直是疯狂的。因此我们非常清楚,这个生态系统需要蓬勃发展。事实证明,这个生态系统需要开源。这个生态系统需要开放模型。他们需要开放技术栈,以便所有这些 AI 研究人员和伟大的计算机科学家能够构建出足够强大且能保障 AI 安全的 AI 系统。因此,我们需要确保做到的一点是,保持开源生态系统的活力。
Dwarkesh:这一点不容忽视。
黄仁勋:这一点不容忽视。其中很大一部分来自中国。我们必须避免扼杀这种势头。关于中国,我们当然希望美国能拥有尽可能多的计算能力。我们受到能源的限制。但我们有很多人正在致力于解决这个问题。我们不能让能源成为我们国家发展的瓶颈。但我们同时也希望确保全球所有的 AI 开发者都在使用 American tech stack 进行开发,并为 AI 的进步做出贡献,特别是当这些开源成果能够服务于美国生态系统时。创建两个生态系统将是非常愚蠢的行为。一个只在非美国技术栈上运行的开源生态系统,以及一个在 American tech stack 上运行的封闭生态系统。
Dwarkesh:我认为对美国来说将是一个糟糕的结果。鉴于有很多事项,请允许我先对回复进行分类处理。我认为回到关于算力(flops)差异的担忧上,确实,他们拥有计算资源,但有一些估算认为,由于他们处于 7 纳米制程,且受限于芯片制造的出口管制,他们没有 EUV 光刻机。他们实际能够产出的算力总量,大约只有美国的十分之一。拥有这些算力。因此,他们最终能够训练出像 Mythos 这样的模型吗?可以。但问题在于,因为我们拥有更多的算力,美国的实验室能够率先达到这一能力水平。正因为 Anthropic 率先实现了这一点,他们会说,我们要将其保留一个月,同时让所有这些美国公司获得使用权限。他们会修补所有的漏洞。然后我们再发布它。
此外,即便他们训练出了这样的模型,其大规模部署的能力——如果有一个网络黑客,他们拥有 100 万个模型实例要比拥有 1000 个危险得多。所以推理算力确实非常重要。事实上,他们拥有如此多优秀的 AI 研究人员,这才是最令人担忧的地方,因为提升这些工程师生产力的关键要素就是算力。如果你与美国的任何 AI 实验室交流,他们都会说目前面临的瓶颈是算力不足。正如 DeepSeek 创始人或其领导层所发表的言论那样。他们表示,目前制约发展的瓶颈就是算力。那么问题来了,难道不应该由美国公司凭借更充裕的算力,率先达到顶尖水平的能力,并在中国因算力不足而尚未达到该水平之前,先让我们的社会做好应对准备吗?
黄仁勋:我们应该始终保持领先,也应该始终拥有更多资源。但为了让你所描述的那种结果成为现实,你必须将其推向极端。他们必须完全没有算力。而如果他们拥有一定的算力,问题就在于究竟需要多少算力。中国目前拥有的算力规模是非常巨大的。我是说,你谈论的是这个国家。它是全球第二大计算市场。如果他们想要部署并整合算力,他们有充足的计算资源可以整合。
Dwarkesh:但事实真是如此吗?我是说,人们做过这些估算,他们认为,实际上这个制程节点进度落后了。
黄仁勋:我正要告诉你。他们拥有的能源量是惊人的,不是吗?AI 是一个并行计算问题,为什么他们不能直接将四倍、十倍的芯片堆叠在一起呢?因为能源是免费的。他们拥有大量的能源。他们有完全闲置且处于全功率运行状态的数据中心。他们有鬼城。他们有鬼数据中心。他们拥有巨大的基础设施产能。如果他们愿意,他们只需堆叠更多的芯片即可。即使它们是 7 纳米制程的。而且他们的芯片制造能力位居世界前列。半导体行业都知道他们垄断了主流芯片。他们存在产能过剩。它们拥有过剩的产能。
因此,认为中国无法获得 AI 芯片的想法完全是无稽之谈。当然,如果问如果全世界都没有算力,美国是否会处于领先地位。但这并不是一个现实的结果。那不是一个真实存在的情境。他们已经拥有了充足的算力。对于你所担心的那些问题,他们所需的门槛,他们早已达到甚至超越了这一阈值。所以我认为你误解了 AI,它像是一个五层蛋糕。最底层是能源,当你拥有充足的能源时,它可以弥补芯片的不足。如果你拥有充足的芯片,它也可以弥补能源的不足。
例如,美国能源匮乏,这就是 Nvidia 必须不断推进架构并进行这种极致代码设计的原因,这样在我们出货的芯片数量有限的情况下——好的,在芯片数量有限的情况下,由于能源极其受限——我们的单位瓦特吞吐量表现极其出色。但如果你的瓦特总量完全充裕,且唾手可得。你还在意什么单位瓦特性能呢?你可以获得充足的供应,任你使用。用旧芯片就能做到。因此,七纳米芯片本质上就是 Hopper。我必须告诉你,关于 Hopper 的能力,如今的模型很大程度上都是在 Hopper 上训练的。Hopper 这一代。所以 Hopper,七纳米芯片已经足够好了。能源充沛是他们的优势。
Dwarkesh:但随后就出现了一个问题,他们真的能在考虑到其……的情况下制造出足够的芯片吗?
黄仁勋:但他们确实做到了。证据是什么?Huawei 刚刚经历了其公司历史上增长最大的一年。他们出货了多少芯片?非常多。数以百万计。数百万这个数字比 Anthropic 拥有的多得多。
Dwarkesh:所以问题在于逻辑处理能力能转化多少。还有关于内存容量的问题……
黄仁勋:我是在告诉你事实是什么。他们拥有充足的逻辑处理能力,也拥有充足的 HBM2 内存。
Dwarkesh:没错。但如你所知,在这些模型的训练和推理过程中,瓶颈往往在于带宽的大小。所以,比如 HBM2,我手头没有具体数字,但相比你们最新的产品。内存带宽可能存在近一个数量级的差异,这非常巨大。
黄仁勋:永远是一家网络公司。永远是一家网络公司。
Dwarkesh:但这并不能改变你需要 EUV 来制造最先进 HBM 的事实。并非如此。
黄仁勋:完全不是这样。你可以像我们将 NVLink 72 组合在一起那样,将它们组合起来。他们已经展示了利用硅光子技术将所有这些计算单元连接成一台巨大的超级计算机。你的前提本身就是错的。事实是,他们的 AI 开发进展非常顺利。而且世界上最顶尖的 AI 研究人员,正因为受限于计算能力,他们也开发出了极其精妙的算法。
请记住,我刚才所说的,Moore's law 每年大约以 25% 的速度在进步。然而,通过卓越的计算机科学,我们依然能够将算法性能提升 10 倍。我想表达的是,卓越的计算机科学才是那个关键杠杆。这一点毫无疑问。M-O-E 是一项伟大的发明。毫无疑问,所有那些不可思议的注意力机制都减少了计算量的需求。我们必须承认,AI 的大多数进步都源于算法层面的突破,而不仅仅是原始硬件的功劳。
Dwarkesh:那么,如果大多数进步都来自算法、计算机科学和编程,请告诉他们庞大的 AI 研究员团队难道不是他们最根本的优势吗?
黄仁勋:我们已经看到了这一点。DeepSeek 的进步不容小觑。
Dwarkesh:如果 DeepSeek 首先在 Huawei 上发布,这对我们国家来说将是一个糟糕的结果。
如果它是开源的,它就可以在任何加速器上运行。为什么未来这种情况会改变呢?因为,我是说,目前你可以拥有像 DeepSeek 这样的模型。
黄仁勋:假设它没有改变。假设它针对 Huawei 进行了优化。假设它针对他们的架构进行了优化。这会使我们处于劣势。你描述了我想象中的那种情况,我将其视为好消息,即一家公司开发了软件、开发了 AI 模型,并且它在 American tech stack 上运行效果最好。我将其视为好消息。而你却将其设定为前提,认为这是坏消息。我要告诉你一个坏消息,世界各地的 AI 模型在开发及运行方面,表现最好的并非 American hardware。
Dwarkesh:这对我们来说是个坏消息。我猜我只是没看到有证据表明存在巨大的差异,以至于让你无法切换加速器。要知道,American labs 正在各种云平台和各种不同的加速器上运行他们的模型。
黄仁勋:我就是证据。你拿一个针对 Nvidia 优化的模型,然后尝试在其他设备上运行它。
Dwarkesh:但 American labs 就是那样做的。
黄仁勋:而且它们运行得并不好。更好。NVIDIA 的成功就是完美的证明。AI 模型在我们的技术栈上创建,自然也就在我们的技术栈上运行得最好。这有什么难以理解的逻辑吗?
Dwarkesh:我只是在观察,你看,Anthropic 的模型运行在 GPU 上,也运行在 Trainium 上。它们运行在 TPU 上。
黄仁勋:若要进行变更,必须投入大量工作。但放眼全球南方国家,看看中东,如果所有 AI 模型开箱即用时都在别人的技术栈上运行效果最好,那你现在一定是在提出某种荒谬的论点,认为这对美国而言是件好事。但我确实无法理解这种逻辑。
Dwarkesh:所以,如果中国公司率先实现了下一个神话般的突破,他们会发现所有的安全运行程序实际上首先是美国的软件,但他们可以在 NVIDIA 的硬件上实现并将其推广到全球南方国家。他们是在 Nvidia 硬件上运行的。比如说,这怎么可能,这怎么会是好事?我只是,它是在 Nvidia 硬件上运行的。
黄仁勋:这并不好。所以我们别让这种情况发生。这并不好。没错。这并不好。
Dwarkesh:你为什么认为如果你们不向他们提供计算机,就一定会完全被 Huawei 取代?他们落后了,他们的设备更差。你们的转变。情况确实如此,目前已有相关证据。
黄仁勋:他们的芯片产业规模极其庞大。
Dwarkesh:你只需看看 H-200 和 Huawei 910C 在浮点运算性能、带宽或内存方面的对比,差距大概是一半、甚至三分之一。
黄仁勋:他们使用的芯片数量更多。他们使用的数量是两倍之多。
Dwarkesh:我猜你的观点似乎是:他们拥有大量随时可用的能源,而且他们需要用芯片来填补这些能源产出的算力需求。并且他们擅长制造业。我确信最终他们能够做到在制造能力上超越所有人,但目前正处于几个关键的年份。
黄仁勋:你所说的关键年份是指哪一年?
Dwarkesh:在接下来的几年里,我们将看到这些模型实施各种网络攻击。
黄仁勋:如果接下来的几年是关键时期,那么我们必须确保全球所有的 AI 模型都构建在 American Tech Stack 之上。这是关键的几年。
Dwarkesh:好的。如果它们是构建在 American Tech Stack 之上的,这如何能阻止它们在具备更先进能力时发起如同神话般的网络攻击呢?无论哪种方式都没有保障。但如果你能更早地掌握它,我们就能为此做好准备。
黄仁勋:听着,你为什么要让 AI 行业的一层受损?从而让 AI 行业的另一层获益。AI 行业共有五层。每一层都必须取得成功。实际上最需要成功的层面是 AI 应用程序。你为什么如此执着于那个 AI 模型、那一家公司,究竟是出于什么原因?
Dwarkesh:因为这些模型使得这些极具攻击性的功能成为可能,而且你需要计算机来运行它们。
黄仁勋:能源、芯片以及 AI 研究人员的生态系统使这一切成为可能。
Dwarkesh:几个月前,Jane Street 花费了大约 20,000 个 GPU 小时,在三个不同的语言模型中植入了后门。然后他们向我的观众发起挑战,让他们找出触发短语。我刚刚联系了设计这个谜题的 Rickson,探讨了一些 Jane Street 收到的解决方案。
Rickson:如果你认为基础模型在这里,而后门模型在那里,你可以通过线性插值的方式来调整后门的强度,但你也可以通过外推法让后门变得更强。在某些情况下,如果你将其加强到足够程度,模型就会直接吐出原本设定的响应短语。
Dwarkesh:因此,如果你不断放大基础版本与后门版本之间的差异,最终它应该会吐出触发短语。但这种技术仅在三个模型中的两个上奏效。连 Rickson 自己也不确定为什么在另一个模型上行不通。能够验证模型是否仅执行你预期的操作,是 AI 安全领域最重要的开放性问题之一。如果你对这类问题感兴趣,Jane Street 正在招聘研究人员和工程师。请访问 janestreet.com/dwarkesh 了解更多信息。
好的,退一步来看,中国必然有能力建立足够的 7 纳米产能。并且请记住,他们仍然被限制在 7 纳米制程上。毕竟,你会继续推进到 3 纳米,然后是 2 纳米,甚至是通过 Feynman 架构实现 1.6 纳米。所以,当你处于 1.6 纳米制程时,他们依然会停留在 7 纳米。而且他们必须生产足够多的芯片来弥补短缺。他们拥有如此多充沛的能源,给予他们的芯片越多,他们所拥有的计算能力就越强。所以,归根结底,问题在于他们最终确实正在获得更多的计算能力。计算机,没错。在训练输入和参数中。
黄仁勋:我只是觉得你的言论过于绝对。我认为 United States 应该保持领先。United States 的算力总量是世界上其他任何地方的 100 倍。United States 应该保持领先。United States 确实处于领先地位。Nvidia 构建了最先进的技术。我们确保 U.S. 的实验室能最先获悉并获得优先购买权。如果他们的资金不足,我们甚至会对其进行投资。美国应当保持领先。我们希望竭尽所能,确保美国保持领先地位。第一点。你同意吗?我们正在尽一切努力实现这一目标。
但是,向 China 运送芯片怎么能让美国保持领先呢?不,不,不。如果它们在计算机方面受到限制。
Dwarkesh:我们非常支持美国。我们非常支持美国。
黄仁勋:现在,美国。我是在美国吗?你认为我是美国的一部分吗?是的。Nvidia。你认为 Nvidia 是一家美国公司。
Dwarkesh:好的。第一点。
黄仁勋:第一,为什么我们不能制定出一项更平衡的法规,让 Nvidia 能够在全球范围内获胜,而不是放弃全球市场?你为什么会希望美国放弃全球市场?芯片产业是美国生态系统的一部分。它是美国技术领导地位的一部分。它是 AI 生态系统的一部分。它是 AI 领导地位的一部分。为什么你们的政策、你们的理念、你们的理念、你们的理念、理念,会导致美国放弃全球大部分市场?
Dwarkesh:我猜这里的论点是,Amodei,Dario 曾引用过这样一句话,他说,这就像 Boeing 在吹嘘他们向朝鲜出售核武器,但导弹外壳是由 Boeing 制造的,而这在某种程度上是在为美国提供支持。技术栈。比如,从根本上说,你赋予了他们这种能力。
黄仁勋:将 AI 与你刚才提到的任何事物进行比较都是荒唐的。
Dwarkesh:但 AI 类似于浓缩铀,它既有积极的用途,也有消极的用途,我们仍然不希望向其他国家输送浓缩铀。
黄仁勋:谁,谁在输送浓缩铀?
Dwarkesh:这个类比的意思是浓缩铀就像计算能力。
黄仁勋:因为它是一个拙劣的,一个拙劣的类比。
Dwarkesh:这是一个不合逻辑的类比。但如果这种计算能力可以运行一个针对所有美国软件进行零日漏洞利用的模型,这怎么能不是武器呢?
黄仁勋:首先,解决该问题的途径是与研究人员展开对话,与中国及所有国家进行对话,以确保人们不会以那种方式使用技术。这是必须进行的对话。第一点。第二点,我们还需要确保 United States 处于领先地位。Rubin、Vera Rubin 和 Blackwell 所做的一切,在 United States 都有充足的资源。显而易见,堆积如山的资源,我们的研究成果也证明了这一点。资源充沛,拥有海量的资源,海量的资源。我们拥有的计算能力非常强大。我们这里拥有顶尖的 AI 研究人员。这太棒了。我们必须保持领先。
然而,我们也必须认识到 AI 不仅仅是一个模型,AI 是一个五层架构,且 AI 产业在每一层都至关重要。我们希望 United States 在每一层都能获胜,包括芯片层;如果放弃整个市场,将无法让 United States 在长期的芯片层和计算技术栈竞争中获胜。这只是一个事实。
Dwarkesh:我想问题的关键在于。现在向他们出售芯片如何能帮助我们在长期竞争中获胜?比如,Tesla 长期以来向中国销售了极其出色的电动汽车。iPhones 在中国也卖得非常好。它们并没有造成某种锁定效应。中国依然会制造属于他们自己的电动汽车版本,并且他们正在占据主导地位。
黄仁勋:当我们今天开始对话时,你本会承认,而且你也确实承认了 Nvidia 的地位非常不同。你使用了像护城河这样的词汇。对我们公司而言,最重要的事情就是我们生态系统的丰富程度,也就是开发者。
Dwarkesh:50% 的 AI 开发者在中国。我们不想,也不应该,美国不应该放弃这一点。但我们在美国有很多 Nvidia 开发者,这并不妨碍美国实验室在未来使用其他加速器。事实上,目前他们也在使用其他加速器,这很好,也很棒。我不明白为什么在中国情况就不是这样。
黄仁勋:如果你向他们销售 Nvidia 芯片,就像 Google 可以使用 TPU 和 Nvidia 一样。我们必须持续创新,而且如你所知,如你可能所知,我们的市场份额在增长,而不是在萎缩。即便是我们在中国进行竞争,我们也注定会失去那个市场的假设——你面对的不是一个还没开始就认输的人。那种失败者的心态,那种失败者的前提,对我来说毫无意义。我们不是,我们不是汽车。我们不是汽车。我可以今天买这个汽车品牌的车,明天用另一个汽车品牌的车,这很正常。很简单。计算领域并非如此。X-86 至今仍然存在是有原因的。arm 拥有如此强黏性是有原因的。这些生态系统,这些生态系统是难以取代的。这需要耗费巨大的时间和精力,而大多数人并不想这样做。因此,我们的工作是继续培育该生态系统,不断推进技术发展,以便我们在市场中保持竞争力。放弃一个市场。基于您所描述的前提,我实在无法认同。这毫无意义,因为我不认为美国是一个失败者。我们的产业也不是失败者。那种失败的命题,那种失败的心态,对我来说毫无意义。
Dwarkesh:我会继续下一个话题。我只是想确认一下。
黄仁勋:你不必继续下一个话题。我很享受这个讨论。
Dwarkesh:好的,太棒了。没错。我对此表示赞赏。但我认为这或许就是问题的关键所在,感谢你陪我绕了这么多圈子,因为这有助于引出问题的核心。
黄仁勋:关键在于,你走向了极端。你的论点始于一种极端假设,即如果我们在这极其狭窄的时刻为他们提供哪怕一点点算力,我们就会失去一切。
Dwarkesh:不,我认为我的论点是……
黄仁勋:那些极端观点,它们太幼稚了。确实很幼稚。
Dwarkesh:核心观点并非存在某个算力的临界阈值,而是任何边际算力的提升都有所助益,所以,如果你拥有更多算力,就能训练出更好的模型。
黄仁勋:我只是希望你能承认这一点。即美国科技产业的任何边际销售都是有益的。
Dwarkesh:我其实并不这么认为,如果运行在这些芯片上的 AI 模型具备网络攻击能力,或者训练这些模型的系统具备网络防御能力,那么运行更多的此类实例虽然算不上核武器,但它确实构成了一种武器。
黄仁勋:按照你的逻辑,你大可以把同样的说法套用到微处理器和 DRAM 上,也可以套用到电力上。
Dwarkesh:但事实上,我们针对中国在各种芯片制造设备上都设有各类出口管制。我们确实对制造最先进 DRAM 相关的技术实施了额外管控。
黄仁勋:我们向中国销售大量的 DRAM 和 CPU。我认为这样做是正确的。
Dwarkesh:我想这又回到了那个根本性问题:AI 是否与众不同,如果你拥有一种能够挖掘软件零日漏洞的技术,我们是否应该尽量限制中国率先获取这类能力……我们希望美国保持领先。
黄仁勋:我们可以管控这一点。
Dwarkesh:如果芯片已经到位,且他们正在利用这些芯片训练模型,我们要如何管控?
黄仁勋:我们有。我们拥有海量的算力。我们拥有大量的 AI 研究人员。我们正在全力以赴地竞争。
Dwarkesh:再说一次,我们拥有的核武器比任何国家都多,但我们不想向任何地方输送浓缩铀。
黄仁勋:我们不是浓缩铀。这只是一块芯片。而且这是一块他们自己也能制造的芯片。
Dwarkesh:但他们从你们这里购买是有原因的,而且我们引用了中国公司创始人的话,他们说我们正在退缩。
黄仁勋:因为我们的芯片更胜一筹。总而言之,我们的芯片更胜一筹。这一点毋庸置疑。如果没有我们的芯片,如果没有我们的芯片,你能承认 Huawei 经历了破纪录的一年吗?你能承认有一大批芯片公司已经上市了吗?你能承认这一点吗?你能承认这一点吗?你是否也能承认,我们曾经在该市场拥有非常大的份额,而现在我们不再拥有该市场的大份额了。我们也承认,中国在全球科技产业中占比约为 40%。离开那个市场,放弃那个市场,对于美国科技产业而言是对我们国家的损害。这对我们的国家安全是一种损害。这对我们的技术领先地位是一种损害,而这一切仅仅是为了让一家公司受益。这对我来说毫无逻辑。
Dwarkesh:我感到困惑,感觉你是在发表两种不同的观点。一种观点是我们能在这场与 Huawei 的竞争中获胜,因为如果我们被允许竞争,我们的芯片会好得多。而另一种观点是,即使没有我们,他们也完全会做同样的事情。这两种说法怎么可能同时成立呢?
黄仁勋:这显而易见是事实。在没有更好选择的情况下,你只能接受你拥有的唯一选择。这怎么就不合逻辑了?这太合乎逻辑了。
Dwarkesh:但他们想要 Nvidia 芯片的原因是这些芯片性能更好。更好的意思是算力更强。更强的算力意味着你可以训练出更好的模型。
黄仁勋:它更好是因为它更容易编程。我们拥有更好的生态系统。无论“更好”指的是什么。无论“更好”指的是什么。当然,我们还是要为他们提供算力。那又怎样?那又怎样?事实是我们从中获益。别忘了,我们受益于美国的技术领先地位。我们受益于开发者在 American tech stack 上的工作成果。随着这些 AI 模型扩散到世界其他地区,我们从中受益。因此,American tech stack 是最适合这一点的。我们可以继续推进并推广美国技术。我相信,这是一件积极的事。这是美国技术领先地位中非常重要的一部分。现在,你所倡导的政策导致美国的电信行业基本上被排挤出了全球市场,以至于我们不再掌控自己的电信产业了。我不认为那是明智的。这有点目光短浅,而且导致了我现在正向你描述的、而你似乎很难理解的那些意外后果。
Dwarkesh:让我们退一步看看。核心问题似乎在于,这里既有潜在的收益,也有潜在的代价。我们正试图弄清楚,收益是否值得付出代价?我想让你承认潜在的代价,那就是算力是训练强大模型的输入。强大模型确实具备强大的进攻能力,例如网络攻击。美国公司率先达到 Mythos 级别的能力是一件好事,而且现在它们将暂缓发布这项能力,以便美国公司和美国政府能够在宣布该级别能力之前,使他们的软件得到更好的保护。如果中国拥有更多的计算机或更多的算力,并更早地制造出 Mythos 级别的模型并广泛部署,那将是非常糟糕的。没有发生这种情况的原因之一是,多亏了像 Nvidia、美国的实验室和美国公司,我们拥有更多的算力。这就是对华出口管制所带来的代价。那么我们先暂时撇开收益不谈。你承认这是一个潜在的成本吗?
黄仁勋:我还要告诉你,潜在的成本在于,我们任由 AI 技术栈中最关键的层级之一——芯片层——放弃了整个市场,即全球第二大市场,这样他们就能发展规模效应,这样他们就能发展出自己的生态系统,从而使未来的 AI 模型能在一种截然不同的环境下进行优化。这与美国的科技栈路径不同。随着 AI 向世界其他地区扩散,由于他们的模型是开放的,他们的标准和科技栈将变得比我们更具优势。
Dwarkesh:我想我还是足够相信 Nvidia 的内核工程师和 CUDA 工程师,相信他们能够完成优化。
黄仁勋:如你所知,AI 不仅仅是内核优化。
Dwarkesh:当然,但从模型蒸馏到适配你芯片的模型,你可以做的事情还有很多。
黄仁勋:我们会尽力的。
Dwarkesh:你们拥有所有的软件。我只是觉得,很难想象会出现对中国生态系统的长期锁定,即使他们暂时拥有稍微好一点的开源模型。
黄仁勋:中国是世界上开源软件的最大贡献者。
Dwarkesh:事实。没错。
黄仁勋:中国是世界上开放模型最大的贡献者。事实。如今,这建立在美国的技术栈和 NVIDIA 上。事实。人工智能技术栈的全部五个层级都很重要。美国应该争取在这五个层级上都取得领先。它们都很重要。当然,最重要的一层是人工智能应用层。渗透到社会各阶层、使用频率最高的那个阶层,将从这场工业革命中获益最多。但我的观点是,每一个阶层都必须获得成功。如果我们通过散布恐惧,让这个国家的人们认为 AI 就像一颗核弹,导致人人憎恨并畏惧 AI。我不知道你这样做对美国有什么帮助。你这是在帮倒忙。如果我们因为担心软件工程岗位会被彻底消灭,就吓得大家不敢从事这一职业,最终导致我们没有任何软件工程师,那我们就是对美国造成了损害。如果我们把大家都吓跑,让他们不敢去学放射学,因为觉得计算机视觉完全可以替代,结果没人愿意成为放射科医生。况且,没有任何 AI 会比放射科医生做得更差。我们误解了职业与任务之间的区别:放射科医生的职业是患者护理,而任务是解读扫描影像。如果我们对此产生如此严重的误解,吓得大家都不去报考放射学专业,我们将面临放射科医生短缺的问题,也无法提供足够优质的医疗服务。
因此,我的主张是,当你提出如此极端的假设——即一切事物都在零和无穷之间波动时。我们最终会以一种不切实际的方式去恐吓大众。生活并非如此。我们希望 United States 处于领先地位吗?当然希望。我们需要在技术堆栈的每一层都成为领导者吗?当然需要。当然需要。今天你谈论神话是因为神话很重要吗?当然,这很棒。但几年后,我向你预测,当我们想要 American 技术堆栈,当我们想要 American 技术普及到全球,推广到印度、中东、非洲和东南亚,当我们的国家想要出口技术时,因为我们希望出口我们的技术,我们也希望出口我们的标准。到那时,我希望你我能再次进行同样的对话,我会准确地告诉你关于今天的对话,谈谈你的政策以及你所设想的一切是如何在毫无正当理由的情况下,导致 United States 直接放弃了全球第二大市场。我们不应该让步。如果我们失去了它,那就是失去了。但为什么要让步呢?现在,没有人主张那样做。没有人主张非此即彼。没有人主张非此即彼,即意味着我们随时随地把所有东西都运往 China。没有人主张那样。我们应该始终在这里拥有最好的技术。我们应该始终在这里拥有最先进的技术,并且是首批拥有者。但我们也应该努力在世界各地参与竞争并取得胜利。这两件事可以同时发生。这需要一定程度的细微差别和成熟度,而不是非黑即白。世界并非绝对的。
Dwarkesh:争论的关键在于,他们构建了针对其架构进行优化的模型。它们是他们几年内制造出的最好的芯片。而这些芯片被出口到世界各地。这树立了标准。正如我们所说,由于 EUV 出口管制,你们将转向 1.6 纳米技术。即使在几年后,这仍将处于 7 纳米水平。国内更倾向于这样做或许是有道理的,毕竟我们拥有如此充足的能源,足以实现如此规模的制造。我们仍将继续使用 7 纳米工艺。但在出口方面,他们的 7 纳米芯片必须具备与你们 1.6 纳米芯片竞争的能力。而且他们的模型必须在 7 纳米工艺上实现极致优化。在 7 纳米芯片上运行他们的模型,要比在你们的 1.6 纳米芯片上运行效果更好。
黄仁勋:那我们能看看事实吗?好的。Blackwell 的光刻技术比 Hopper 领先 50 倍吗?是 50 倍吗?远不止于此。我一直在重复强调这一点。摩尔定律已经消亡。从 Hopper 到 Blackwell,单就晶体管本身而言,提升幅度约 75%。它们之间相隔了 3 年。
Dwarkesh:75%。
黄仁勋:Blackwell 提升了 50 倍。Hopper。我的观点是,架构至关重要。计算机科学至关重要。半导体物理学同样重要。但计算机科学确实重要。AI 的影响力很大程度上源于计算堆栈,这就是为什么 CUDA 如此高效,也是为什么 CUDA 如此广受青睐的原因。它是一个生态系统,一种提供了极高灵活性的计算架构,无论你是想彻底改变架构,还是创建像 MOE、diffusion 这样或解构式的模型,它都能实现。你可以这样做。这很容易做到。就是这样。
事实是,AI 不仅关乎底层的架构,同样也关乎上层的堆栈。如果我们拥有针对我们自己的堆栈和生态系统进行优化的架构与软件堆栈,那显然是件好事,因为我们今天一开始就讨论了 Nvidia 的生态系统为何如此丰富,以及为什么人们总是喜欢优先在 CUDA 上进行编程。他们确实如此。他们确实如此。他们确实如此。中国的研究人员也是如此。但如果我们被迫离开中国,如果我们被迫离开中国,如果我们被迫离开中国,中国。这将会是,这将会是,首先,这是一个政策上的失误。显然,产生了反作用。它产生了反作用。显而易见,这招火了,这对美国来说结果很糟糕。它促成并加速了他们的芯片产业发展。它迫使他们整个 AI 生态系统专注于内部架构的研发。
现在还不算太晚,但无论如何,事情已经发生了。未来你会看到,他们显然不会止步于 7 纳米。他们擅长制造。他们将继续从 7 纳米向更先进的制程推进。那么,5 纳米和 7 纳米之间存在 10 倍的差距吗?答案是没有。架构至关重要。网络至关重要。这就是 Nvidia 收购 Mellanox 的原因。网络至关重要。能源至关重要。所以这一切都很重要。事情并非像你试图简化归纳的那样简单。
Dwarkesh:我们可以撇开中国不谈。但这确实引出了一个有趣的问题,也就是我们之前讨论的,关于 TSM 和内存等方面的瓶颈。所以,如果我们身处这样一个世界,即你已经是 N3 的大客户,那么在某个节点,你也会成为 N2 的大客户。你是否认为可以回过头来使用 N7,即利用旧工艺节点的闲置产能,去应对目前 AI 的需求?需求如此巨大,而我们在先进制程上的产能扩张无法满足这一需求。所以,我们将围绕目前已知的数值计算知识以及你所描述的所有其他改进,打造一款 Hopper 或 Blackwell 架构产品。你认为这个世界在 2030 年之前会实现吗?
黄仁勋:没必要非得那样。原因在于,每一代产品中,架构的意义远不止于晶体管的缩减。此外,你还需要在工程设计、封装、堆叠技术、数值计算以及系统架构方面投入大量精力。当你没有足够的产能去轻松回归旧一代节点时,那种研发投入是没人能负担得起的。我们能够负担得起向前迈进的成本。但我不认为我们负担得起倒退的代价。
现在,如果全世界都在那一天说——我们来进行一个思想实验——在那一天,如果我们说,听着,我们再也不会有更多的产能了。我会毫不犹豫地选择回去使用 7 纳米工艺吗?答案是肯定的。当然,我愿意。
Dwarkesh:有人曾问过我一个问题,为什么 NVIDIA 不同时运行多个采用完全不同架构的芯片项目?你们可以做类似 Cerebras 那样的晶圆级芯片。你们也可以做 Dojo 那种大型封装架构。你们拥有足够的资源和工程人才来并行开展所有这些项目。考虑到 AI 及相关架构的未来发展方向尚不明确,为什么要把所有鸡蛋放在同一个篮子里呢?
黄仁勋:我们确实可以这样做。只是因为我们目前还没有更好的方案。
Dwarkesh:是啊,是啊。
黄仁勋:我们确实可以做所有这些事情。它就是不够好。而且我们对这一切进行了模拟。它们在我们的模拟器中,经证明表现更差。所以我们不会那样做。是的。我们正在研发的正是这款产品。我们正在研发的正是这款产品。我们想要研发的那款产品。如果工作负载发生巨大变化,我指的不是算法,而是真正的工作负载。这取决于市场形态。我们可能会决定添加其他加速器。比如,我们最近添加了 Groq,并且打算将 Groq 整合进我们的 CUDA 生态系统。我们现在这样做是因为 Token 的价值已经大幅上升,以至于你可以对 Token 进行不同的定价。在过去,也就是仅仅几年前,Token 要么是免费的,要么几乎没什么成本,但现在你可以拥有不同的客户群体,而这些客户需要不同的答案。
Dwarkesh:正因为客户能从中获得巨大的收益,比如我们的软件工程师,如果我能为他们提供响应速度更快的 Token,让他们比现在更具生产力,我愿意为此付费。
黄仁勋:但这个市场直到最近才出现。所以我认为,我们现在有能力基于响应时间,在同一个模型下实现不同的细分市场。这就是为什么我们决定扩展 Pareto Frontier,并创建一个以更快响应时间为特征的推理细分领域,尽管它的吞吐量较低。在此之前,更高的吞吐量总是更好的选择。我们认为,未来可能会出现一种拥有极高 ASP Token 的市场环境。即使工厂的吞吐量较低,但平均售价(ASP)弥补了这一差距。这就是我们这样做的原因。但除此之外,从架构的角度来看,我认为 Nvidia 的架构,如果我有更多的资金,我会投入更多资源在架构上。
Dwarkesh:我认为这种极致的高端 token 理念,以及推理市场的分类拆解,非常有趣。对其进行细分。最后一个问题。假设深度学习革命没有发生。Nvidia 会在做什么?显然是游戏,但考虑到……
黄仁勋:加速计算。加速计算。这是我们一直以来都在做的事情。我们公司的前提是,摩尔定律即将走到尽头,通用计算虽然在很多方面表现良好,但在处理许多计算任务时并不理想。因此,我们将一种名为 GPU 和 CUDA 的架构与 CPU 相结合,以便能够加速 CPU 的工作负载。这样,不同的代码内核或算法就可以卸载到我们的 GPU 上运行。
结果就是,应用程序的运行速度可以提升 100 倍甚至 200 倍。这能用在哪些领域呢?显而易见,包括工程、科学、物理学等等,以及数据处理、计算机图形学、图像生成,即便 AI 在今天不存在,视频处理的规模也会非常非常大。我认为其原因相当根本,即通用计算继续扩展的能力已基本走到了尽头,而实现扩展的方式,并非唯一但最有效的方法,就是通过领域专用加速。我们最初切入的领域之一是计算机图形学。但还有许多、许多、许多其他的领域。各种科学领域的粒子物理学、流体力学,以及结构化数据处理,各类不同的算法都能从 CUDA 中获益。因此,我们的使命确实是将加速计算带给全世界,推动那些通用计算无法实现的应用类型,并扩展到足以在特定科学领域实现突破的能力水平。
早期的一些应用包括分子动力学、用于能源勘探的地震数据处理,当然还有图像处理。所有这些领域,通用计算的效率都太低了,无法胜任。所以,如果没有 AI,我会感到非常难过。但正是因为我们在计算领域取得的进步,我们实现了深度学习的平民化。我们让任何研究人员、任何科学家,无论身在何处,甚至任何学生,都能通过访问 PC 或 GeForce 显卡来进行卓越的科学研究。这一根本承诺从未改变,哪怕是一点点都没有。如果你关注 GTC,观看 GTC 的会议,你会发现其开头部分完全与 AI 无关。无论是计算光刻技术、我们的量子化学研究,还是所有那些数据处理工作,这些内容都与 AI 无关。但它们依然非常重要。我知道 AI 非常有趣且令人振奋,但还有许多人在从事许多与 AI 无关的重要工作,而且 Tensor 并不是计算的唯一方式。我们希望帮助每一个人。
Dwarkesh:Jensen,非常感谢你。
黄仁勋:不客气。我很享受这次交流。
Dwarkesh:我也是。太好了。