英伟达悄然垄断算力：人工智能背后的新帝国

2023-04-16

　　1990年代中期，黄仁勋30出头，他创办的英伟达还没完全站稳脚跟，他希望如日中天的台积电能代工英伟达的显卡，他打电话过去，没人搭理。

　　“当年给你打电话打不通也没人回，是不是我电话号码记错了？给你公司在美国的销售部门打电话也没人接。”

　　今天，全球科技界恐怕没有几个人敢不接黄仁勋的电话，这个当年求人代工显卡的小伙子被称为“教主”。

　　在3月21日的英伟达GTC大会上，他穿着标志性的黑色皮衣出现台上，说出了石破天惊的一番话：

　　2022年11月，大语言模型ChatGPT问世，预示着能生成自然文章和图像的“生成式AI”将在社会普及，给世界带来颠覆性的改变。

　　而支撑这幅图景的，有英伟达的GPU——AI时代最重要的基础设施之一，GPU提供算力，犹如AI时代的原油。

　　2020年，全世界跑AI的云计算与数据中心，80.6%都在用英伟达的GPU驱动。

　　2021年，英伟达称全球前五百个超算中，七成由它家的芯片驱动，在最新的超算系统中此比例是九成。

　　现在只要英伟达一断供芯片，管你天高股价、地大营收，全球前十大企业里，至少有一半要地震。

　　“十年间，我们从自动判读猫图，进步到能自动生成‘穿太空服的猫在月球漫步’的图片。”

　　无论是“AI的iPhone时刻”，还是英伟达成为“算力油田”，都是蓄力于前，发端于自家的“猫片”。

　　2010年的一天，加州帕罗奥图市的琼安咖啡馆里，刚做上英伟达首席科学家的比尔·戴利（Bill Dally）和当时在谷歌大脑供职的AI界宗师吴恩达（Andrew Ng）聚餐。

　　十余年过去后他们会发现，正是这场会面，无意地打开了一道通往AI新世界的大门。

　　两个老友在席间聊起了吴恩达当时课题面临的障碍：训练神经网络AI的算力不够了。

　　具言之，谷歌要用数千万条YouTube视频来训练神经网络AI分辨猫与人的不同。

　　而当时AI界的领军人物们仍然习惯串联CPU来执行此类任务。吴恩达预计，要完成课题得用1.6万块CPU。

　　就算是从不缺钱的谷歌，也不会给公司内任一研发项目组轻松批下买1.6万块CPU的预算。

　　不就是在线万块CPU，用我们英伟达公司的显卡产品，几十块就搞定，你信不信？

　　当时英伟达虽已制霸世界独立显卡业，但名声还只局限在极客、硬核游戏玩家、图形设计师等非普罗用户中。

　　随后，戴利找上刚从加大伯克利分校招到英伟达的非正职研究员布莱恩· 卡坦扎罗（Bryan Catanzaro），请他帮忙。

　　卡坦扎罗很快找到了解决方案：并联12块英伟达GPU成功驱动了吴恩达的神经网络模型，并联48块GPU就能获取预计要用1.6万块CPU才有的理想效果。

　　两年后，AI界泰斗辛顿（Geoffrey Hinton）和学生克里泽夫斯基（Alex Krizhevsky）、萨茨克维尔（Ilya Suskever）效仿此举，用英伟达的GeForce GTX 580显卡训练由克里泽夫斯基提出的神经网络模型AlexNet，夺得ImageNet图像分类竞赛冠军，成为AI技术飞跃的奇点。

　　以后的新时代里，黄仁勋的黑皮衣，如同上个世纪海湾国家显贵们的白罩袍，都是唯我独尊的霸主象征。

　　卡坦扎罗现在是英伟达副总裁、深度学习应用研究部负责人，萨茨克维尔现在是OpenAI的首席科学家、联合创始人、GPT系列大模型集合之父。

　　然而即使这个大模型集合如OpenAI一开始预期的，作为GPT3到GPT4之间的过渡实验版本简单飘过，AI技术革命的下一个出圈爆点。

　　黄仁勋答：1993年2月17日，我成立公司的日子。不改变世界，我创个什么业？

　　皮衣哥自己说得响，但1990年代中，英伟达的运营低谷时账面上曾只有6个星期的资金，离关门一步之遥。

　　然而黄仁勋创业的初心，与其说是做显卡，不如说一直都是求索算力提高的途径。

　　在1990年代，多媒体犹如近年的元宇宙、数据可视化犹如当下的生成式AI，都是从投资者到消费者都追捧的热门技术话题。

　　多媒体与可视化数据在当年的舆论浪潮中，被夸到小可以养妻活儿、提高工作娱乐效率，大可以改天换地、重写行业经济版图。

　　世界首款大卖FPS游戏1992年《重返德军总部3D》与2001、2019年系列续作的画质对比

　　英伟达的创始概念是加速计算，即用特制设备来为CPU的运算工作减负提速，最简洁的落地方案，自然是堆算力造显卡处理图像。

　　以现在的后见之明看，NV1的最大作用是给黄仁勋提供了反面经验：这种产品做得很好，以后千万不能做了。

　　出于为当时的游戏主机巨头世嘉公司服务的考量，NV1最突出的特色，是兼容世嘉游戏在PC上的运行，与业内既有和将出现的其他PC端3D图像程序基础架构的兼容性不够出色。

　　当时世嘉公司有意将游戏业务从街机、主机端扩展到PC端，NV1的努力迎合了主要合作商的需要，但局限了自己的市场潜力。

　　而且NV1兼具显卡和声卡功能，偏离了加速计算基于图像落地的初衷，产品定位有欠清晰。

　　不过在1997年8月推出新产品Riva 128前，英伟达已经裁员过半，银行账户只剩不到6周的流动资金。

　　剩余的员工们不仅要在乒乓球桌上吃饭，连停车场也只能蹭旁边富国银行的，而这家网点已经被抢劫过两三回了。

　　虽然黄仁勋在各种活动上说创业首年的雇律师、订办公室早饭等各种经验非常宝贵，但从1997-1999年上半年的英伟达三款产品看，他记住的显然不止这些。

　　1990年代中期，游戏业的热门话题是从主机/街机走向PC，而不被注意的潜流是游戏同时在从PC单机走向PC端多人在线。

　　关于图形渲染的硬件性能需求因此与日俱增。只满足这个缺口，已经足以养活整个行业。

　　二是垂直整合显卡的配套软件，自行开发显卡驱动程序和拓展软件开发工具包（SDK，software development kit）。

　　过去的惯例是，英伟达这些显卡研发公司把设计交付主板芯片生产商之后，由生产商自己分包给另外的承包者写显卡驱动。

　　至于用显卡做图形设计等专门工作的终端用户、PC运行系统的开发商，与显卡研发者没有直接配合。

　　1996年，英伟达专为配合微软当时刚推出的Direct3D图形渲染插件，写了自家显卡驱动程序。

　　1998年开始，英伟达公司会定期即时更新自家的通用显卡驱动程序。此举持续至今。

　　三是全力秉持和实现摩尔定律。这是英伟达现在成为全球算力第一供应商的基础。

　　不久前去世的英特尔联合创始人戈登·摩尔（Gordon Moore），在1965年提出了摩尔定律：

　　从1990年代后半叶开始，英伟达的产品设计与研发部门一直有三个部分同时工作：

　　一部分负责本年度新品的设计，一部分负责去年出品的翻新挖潜设计，一部分负责明年新品的设计。

　　每款产品之间，基本要有一倍的性能提高，如果显存没有涨一倍，那么核心频率就得快一倍，如果都不行，那么至少制程要明显缩小。

　　如此的结果，是英伟达每半年至一年就会推出性能换代的新品，1999年之前的产品内部代码全叫NV，即“下一版”（Next Version）的首字母缩写。

　　英伟达与之后被AMD收购的ATI，并肩收割游戏玩家、专业设计师等高性能显卡用户的市场份额。

　　1999年10月，英伟达推出GeForce 256，在营销中称“这是世界上第一款GPU”。

　　显卡业告别创业者纷纷崛起的时代，进入了“红绿蓝三国战争”的时代（按商标颜色不同的消费者昵称，“红厂”为AMD、“绿厂”为英伟达、“蓝厂”为英特尔）。

　　在20世纪的末尾，没人知道这场竞逐的结果，会决定之后由谁主宰世界算力的供应。

　　凭借全球PC主板市场的垄断地位，英特尔的注意力一直放在CPU而非GPU。

　　在英特尔眼中，要提高性能，得整个主板的整全性能一起提升，只提升图像处理的速度，那是偏门小道。

　　所以英特尔做显卡只是占位，表示这个市场的钱自己还是要赚点，没有完全放弃。

　　究其原因，是CPU要负责整个电脑主板的序时性复杂运算，而GPU在成为通用类芯片前只需负责图像处理的并时性简单运算。

　　如下图所示，单个CPU的控制元件、基础运算单元（ALU）、缓存（Cache）等，都比单个GPU数量少而负重大，因此提升性能的设计与制造难度都远更高。

　　黄仁勋多次说过，以CPU而言，摩尔定律已经过气，英特尔CPU性能翻倍的最快时限是每五年。

　　在2006年被AMD收购前，ATI出品的显卡，无论更新速度还是单个性能，都屡有明显优于英伟达竞品的佳作。

　　但ATI在这场竞争中已经后续乏力，英伟达的产品更新与性能提升速度，始终达到了摩尔定律的金标准。

　　显卡业的过往通则，是ATI、英伟达等品牌企业管设计，然后将设计方案交付给芯片厂，委托它们制作成品。

　　当然，不是没有公司想囊括从设计到生产的全链条，但此举一般会给自己带来双倍的麻烦：

　　1990年代从显卡龙头到被英伟达收购的3dfx，就是如此把自己玩破产的。

　　但收购之后，2009年AMD与半导体大厂格芯签约，所有芯片都交由格芯制造。

　　而格芯在芯片制程缩小的技术革新中逐渐落后于台积电，带累了AMD的所有产品，包括显卡。

　　1990年代中期，台积电已经是市值近60亿美元的大公司，英伟达没有上市，年营收2700万美元，两者体量差距不小。

　　1997年，人在新竹的张忠谋收到来自美国的黄仁勋的信函后，大感兴趣，如信中所邀，给英伟达公司办公室回了电话。

　　等到两人第一次见面，黄仁勋先讲了半天图像加速运算的产品理念，张老板表示非常认同，反手递来宣传单。

　　黄仁勋本以为轮到台积电介绍自己的技术与产能了，结果打开一看，是讲公司价值观的。

　　台积电的芯片制程每年都在缩小，集成电路上的元器件现在已经微缩到物理极限，无法比原子更小。芯片的精密度与日俱增，算力也跟着有数量级的飞跃。

　　制霸高端显卡市场的英伟达，有足够的营收来打中端显卡、低端集显的价格战，产品与技术研发也有更充足的预算。

　　今年奥斯卡颁奖礼前，英伟达公司官网称：竞争“最佳视效”奖项的五部电影，视效都是用我司的芯片和基础技术做出来的

　　我司有广泛的产品门类适合此行业，明年生成式AI将会更加主流普罗化、更有意义。

　　2006年，英伟达推出CUDA开发平台，软件开发者可以通过这一平台，使用C语言编写GPU片上程序，来完成复杂的计算。

　　GPU从此实际脱离图像处理的单一用途，成为了真正的GPGPU（通用GPU）。

　　英伟达本身最先想通了这点，在AI领域的布局远比公众想象的早，技术领军人早就和英伟达关系密切。

　　2010年的吴恩达寻猫片典故之前，2008年卡坦扎罗加入公司，他当时在加州大学伯克利分校做研究生时，就将注意力集中在为AI开发GPU上。

　　2009年，AI界泰斗辛顿在学术会议上，劝上千名研究者赶快买GPU，那是深度学习的未来之光。

　　2016年，微软技术大拿黄学东创下了语音识别AI错误率与专业人类速记员持平的纪录后，得奖开香槟的地点，是黄仁勋的大别墅。

　　2010-2012年的深度学习飞跃开始后，英伟达已经是稳赢不输的世界“算力油田”，把握数据量与运算速度的世界巅峰。

　　Tegra芯片最终没有成功进入手机市场，挖矿芯片随着加密货币潮的褪热前景黯淡，与特斯拉在自动驾驶系统的合作无疾而终，2022年黄仁勋“元宇宙将挺过任何经济下行”的预言现在像个玩笑话。

　　为元宇宙开发的Omniverse平台，用来合成训练AI的物理数据，多样性与过拟合规避还胜过了真实世界数据。

　　英伟达的数字孪生体技术，已经足以为地球物理的机器学习模型提供高置信度模拟运算

　　2016年，谷歌宣布专门为AI研究开发了机器学习的专属芯片TPU（张量处理单元），并设计了基准测试工具MLPerf。

　　然而在大多数年度的MLPerf测试中，按英伟达员工的自述，“黄总说，我们每次运行MLPerf基准测试时，都要向谷歌证明我们的GPU比TPU运算速度快，哪怕只快一点点就好。”

　　今年谷歌的TPUv4终于在MLPerf基准测试测试中赢了英伟达的A100芯片，成为业界大新闻：

　　不管元宇宙还是生成式AI谁是真正的未来数字产业走向，跑模型的数据中心都要找英伟达买芯片。

　　【投资人说】正在组建超级投资者社群、超级创业者社群、超级读者群、超级媒体群等，目前总人数已超1000人。

　　关注【投资人说】微信公众号，发送信息「进群」，与各行业精英直接交流，共同进步。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　很意外的数据！中华全国总工会不小心暴露了国内就业市场的线万赔偿款应退回，郭威认为自己没受到伤害，他应感谢大药房错换

　　个人存款一旦超过这个数，其实就已经超过中国绝大多数家庭标准，看看你达标了吗

　　携带51个有效载荷！马斯克旗下SpaceX成功发射第七次Transporter拼车任务，重型运载火箭“星舟”拟明日首次试飞

　　消息称 Infinix InBook Y1 Plus Neo 笔记本将发布

上一篇：AMD发布更为强大的AMD Radeon PRO显卡上一篇：【硬件资讯】提前看看未来的CPU？AMD Zen5架构早期产品跑分曝光性能提升明显还有更大升级空间？

友情链接

化工厂拆除洛阳网站建设 IT培训城市

栏目导航

关于我们新闻中心联系我们谷歌seo

联系我们

15169028800 新浪微博山东省济南市高新开发区 21241043

扫码关注更多资讯