OpenAI 自研芯片的计划终于看到了实质性进展。根据 SemiAnalysis 最近的一篇文章,他们正从谷歌 TPU 团队招募人才,扩展自己的芯片研发组。
OpenAI 在芯片方面的野心传闻已久。
目睹了近年来 PC 和 AI 行业两次重大的半导体供应危机之后,Sam Altman 似乎认为台积电、三星代工和英特尔代工这些传统的芯片制造商没有足够的产能,不能满足全球对 AI 芯片迅猛增长的需求。
不仅仅是 OpenAI 的算力需要减少对英伟达芯片的依赖,阿尔特曼甚至还希望建造更多的晶圆厂,可以稳定供给其他公司。
根据华尔街日报的报道,今年 2 月,阿尔特曼会见软银 CEO 和台积电的谈判代表,讨论合资事宜,计划在未来几年内共同建造和运营数十座芯片制造工厂。
TSMC 在亚利桑那州的在建工厂
然而,造芯片要烧的钱相比训练大模型,只会多不会少。根据阿尔特曼本人的估计,要建造新的半导体制造设备和相关基础设施,成本可能高达 5-7 万亿美元。
由于传统的私人风投很难一下子拿出这么多资金,阿尔特曼曾经找到美国商务部长讨论,甚至远赴新加坡和阿联酋会见当地官员,想寻求国有资本的支持。
经过了半年多的筹备和发酵,OpenAI 的芯片事业似乎真的要起步了!
芯片人才大战,谷歌 vs. OpenAI
据 SemiAnalysis 的最新报道,OpenAI 最近开始大规模招募,计划将只有几个人的芯片团队扩展到几十个人。
而且,他们延续了招聘人才的一贯策略 —— 挖角谷歌。
新近招募的几乎所有研究人员,都是现任或前任的谷歌 TPU 团队成员。
不同于最初为图形处理和实时渲染设计的 GPU,TPU 是谷歌从头设计的,专门用于加速机器学习和神经网络的计算,能够更出色地解决张量运算问题。
GPU 以 ALU(高级算术逻辑单元)作为核心组件,而 TPU 的核心是矩阵乘法器单元(MXU),能够以很高的吞吐量执行矩阵乘法和累加。
谷歌 TPUv4
虽然 TPU 的任务通用性不如 GPU,尤其是没有 CUDA 这样的编程接口,但在运算性能和能源效率方面表现出色,尤其是那些经过谷歌团队特别优化的任务。
因此可以说,TPU 是世界上性能 / TCO(总体拥有成本)最优的机器学习基础设施。
虽然谷歌的 TPU 已经有如此高的成就,但是 OpenAI 芯片团队的工作机会依旧有多方面的吸引力。
首先是大公司和创业公司在发展速度上的本质差异。
TPU 首次发布是在 2013 年,到今年 5 月最新推出的 TPUv6,团队已经有了十多年开发经验。珠玉在前,系统设计和微架构很难有较大变动,更多的是迭代性、渐进式的改进。
加入 OpenAI 则不同,在从头开始设计、开发的过程中,成员们有机会尝试更创新、更激进的方法。
而且 OpenAI 一向雄心勃勃,他们的目标是构建由数百万个加速器组成的系统,这比 GPT-4 的训练还要大好几个数量级。
此外,团队合作模式也有很大的区别。
在尾大不掉的谷歌,虽然 TPU 团队也会和 DeepMind 合作,但依旧会遇到不少非技术方面的障碍。
相比之下,OpenAI 内部的芯片和模型团队之间,交流与合作会更为紧密顺畅。
除了这些,当然也有薪酬的差异。
实际上,Google TPU 团队已经是半导体设计领域中薪酬最高的团队之一,工程师的平均收入远高于 AMD、英特尔、高通等大多数半导体公司,能和行业龙头英伟达比肩。
OpenAI 的基本工资虽然没那么丰厚,但作为未上市的创业团队,每年向高级工程师提供的价值数百万美元的股权更加诱人。
有了这几重因素的叠加,再加上 CEO 阿尔特曼本人亲自参与了大部分的招聘工作,OpenAI 招募到的人才质量令人惊叹。
GPT-4o 和 Sora 模型发布时,团队成员背景、能力之强悍总能惊艳到网友。
SemiAnalysis 的记者向同行打听这些被挖角的 TPU 人才时,总能得到这样的回答,「他们是我合作过的最好的工程师之一」。
OpenAI 之所以瞄准谷歌的 TPU 团队,既是希望得到最先进的技术和人才,也同样有商业竞争上的考量。
在硅谷的众多科技巨头中,只有谷歌研发的 TPU 能成功替代英伟达的芯片,并部署在公司内部的云服务中。
Meta、亚马逊和微软等公司虽然也在自研芯片方面做了很多努力,但依旧严重依赖英伟达。
在未来相当长的时间内,AMD 和英伟达等半导体公司将依旧是 OpenAI 的合作伙伴,因此轻易得罪不起。
只有面对天生的死对头 —— 谷歌,OpenAI 才敢如此肆无忌惮地挖角。(连发布会都要抢在谷歌 I / O 大会前一天开)
虽然已经获得了如此强大的人才团队,但是芯片研发依旧需要付出巨大的努力。
预计要到 2027 年底,OpenAI 才能推出第一代自研芯片。在那之前,他们依旧会完全依赖商用芯片。
与微软关系逐渐微妙
OpenAI 自研芯片的决策有些让人摸不到头脑。背靠微软的资金和 Azure 云服务的强大算力,为什么要烧钱自研芯片?
实际上,OpenAI 的与微软之间的关系已经愈发紧张,因为对于微软而言,OpenAI 是一家结构非常怪异的公司。
目前,它本质上依旧是一家完全独立的非营利组织,由 OpenAI Nonprofit 管理。微软作为无投票权的董事会观察员,几乎无法控制 OpenAI 的发展走向。
如果因为 AGI 安全问题,OpenAI 董事会要求中止协议、收回模型的使用权,微软就只能乖乖听命,毫无还手之力。
AGI 从所有的商业和知识产权许可协议中分割开来。
董事会决定我们何时实现 AGI。再次强调,AGI 指的是一种高度自治的系统,在最具经济价值的工作中优于人类表现。此类系统不包括在与微软签订的 IP 许可和其他商业条款中,这些条款仅适用于 AGI 之前的技术。
因此,两方面都在施行自己的「脱钩」计划。
OpenAI 需要在芯片和算力方面逐渐独立,微软在试图减少对 OpenAI 模型的依赖。
比如微软近期投资 Inflection AI,以及自行组建团队开发 Phi-3、MAI-1 等模型,都是出于这方面的考量。
目前,许多企业用户通过 Azure 使用 OpenAI 的技术,包括超过 65% 的《财富》500 强公司。
微软希望拥有自研的 GPT-4 级别 LLM,以及满足不同用户需求的一系列模型,以便在 Azure 的推理服务中替换掉 OpenAI。
对于 OpenAI 来说,想要在算力方面自给自足,购买英伟达芯片的成本过高,并不是最好的选择。因此,自研芯片似乎是唯一出路。
实际上,不仅仅是 OpenAI,Meta、微软、谷歌和亚马逊等公司也都在大力投资,开发自己的 AI 加速器。
这些 AI 巨头一边是英伟达最大的客户,一边也成为最有力的竞争对手。
毕竟,在模型训练的过程中,算力已经成为占比最大的支出。如果能将购置芯片的资金转变为内部投入,以制造成本部署 GPU 或 TPU,模型的成本也将大幅下降。
参考资料:
https://www.semianalysis.com/p/openai-chip-team-is-now-serious
https://www.wevolver.com/article/tpu-vs-gpu-in-ai-a-comprehensive-guide-to-their-roles-and-impact-on-artificial-intelligence
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。