新闻中心

首页 > 新闻中心

ChatGPT热潮背后的算力危机:国产AI芯片如何破局?

时间:2023-04-29 17:16
国产大语言模型百花齐放背后,国产AI芯片正默默前行。
受ChatGPT热潮的影响,国内各大科技公司都开始研发自己旗下的大语言模型,百度“文心一言”、阿里云“通义千问”以及360仅做展示但还未定名的“360AI”……国产GPT“百花齐放”的背后,则是大语言模型的算力“底座”——深度学习架构和AI芯片。

就如同ChatGPT背后是英伟达经营已久的CUDA(统一计算设备架构)和A100芯片,国内大语言模型飞速发展下,半导体产业又会受到怎样的影响?面对和各类AI框架深度绑定的CUDA和英伟达这座“高山”,国产AI芯片又该何去何从?

4月13日,有从事科技战略研究的人士告诉贝壳财经记者,A100被断供后,目前A800虽然理论上可以购买,但是价格水涨船高,且“有价无市”,库存告急,实际上已经难以买到。

贝壳财经记者以匿名方式咨询百度、阿里云相关一线工作人员得知,目前百度大模型部分使用昆仑芯,要想未来有更多国产替代还需要等昆仑芯3代发布,发布时间点预计在2024年初。而阿里云则面向B端推出了一系列可用于人工智能计算的芯片以及液冷数据中心等算力支持服务产品,除含光800外,倚天710也可用于为人工智能大模型提供算力。

01

大语言模型应用落地

需消耗多少算力?

当前,人工智能所需要的云端训练和云端推理AI芯片主要由英伟达主导,如ChatGPT 就使用了英伟达的HGX主板和A100芯片,其预训练和云端推理需要高达3万枚A100(单价超1万美元)并行运算作为算力支撑。


爱集微咨询业务部资深分析师钱禹告诉贝壳财经记者,类GPT应用的落地是以大规模的数据和巨大的算力资源消耗来实现的,AI类芯片设计公司、算法公司或深度学习框架公司、围绕数据中心基础设施建设的公司、基于分布式数据中心或异构数据中心的公司等将受益类GPT应用的发展。

钱禹从事存储器和大芯片产业研究多年,他告诉贝壳财经记者,一个ChatGPT的算法模型从预训练模型的构建,再到监督学习和人工干预学习的针对性训练,需要耗费大量的数据和运算资源,这对数据中心基础设施建设的要求是非常高的。“我们还要考虑一个问题是,训练模型是无法直接落地到实际应用,成熟的训练模型还需要转化成推理模型,随后再布置到推理数据中心。暂且不考虑推理模型的部署,仅训练模型的部署就需要上万颗英伟达A100加速卡,一次模型训练的成本远超千万美元。”

数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7至8个投资规模30亿、算力500P的数据中心才能支撑运行。有声音认为,即便是部署1万块英伟达A100显卡,也要持续不间断运算10年才能达到这样的高度。

中泰证券发布研报称,算力是AI发展的底层土壤。在ChatGPT等概念影响下,AIGC关注度火热。未来越来越多AI应用的落地离不开庞大算力的支撑,因此也将推动算力产业链快速增长。

根据wind数据,代表国产内存芯片叠加替代及AI算力双重机遇的“A股存储器指数”可反应内存及NAND存储相关公司的整体表现,今年年初至4月5日,该指数累计上涨43.46%。

OpenAI曾预计,人工智能科学研究要想取得突破,所需要消耗的计算资源每3到4个月就要翻一倍,资金也需要通过指数级增长获得匹配,这也被称为人工智能领域的“摩尔定律”。

钱禹认为,随着ChatGPT的迭代,其需要容纳更多的语种以及古诗词、文言文等内容,需要对其算法架构进行更多的参数设计和算法层数的微调,今后的ChatGPT将会耗费更多的数据资源和训练硬件资源,“除此以外,我们还应当考虑数据中心中服务于ChatGPT训练资源的非GPU类芯片,如ASIC或FPGA类专用芯片、服务器CPU芯片以及服务于分布式训练硬件架构的光模块通信芯片,这些芯片的需求也会随着训练资源的提升而提升。”

在他看来,在ChatGPT带来的热潮中,首先受益的是AI类芯片设计公司,因为一切算法迭代的都是以训练为途径的,而训练的方法论就是需要硬件资源,AI类芯片公司会基于GPT类应用开发更高效和更灵活的硬件资源。第二类受益的公司是算法公司或深度学习框架公司,因为GPT类应用的全生命周期生产都需要深度学习架构公司在开发工具方面上给予支持。

今年3月,英伟达创始人兼CEO黄仁勋就在GTC开发者大会上发布了针对部署大语言模型的新版H100芯片 ,并宣布该产品与“当前唯一可以实际处理ChatGPT的HGX A100相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。”

在各地大模型训练如火如荼,英伟达“开足马力”为此提供算力支持时,国内GPU芯片企业能否“分一杯羹”呢?

02

断供危机

国产芯片需翻越英伟达“高山”

持续关注半导体产业发展的陈川对贝壳财经记者表示,从某种意义上讲,计算成本已经成为阻碍大语言模型发展的核心问题,而且一个残酷的现实是,在国内大模型训练潮涌之时,大语言模型训练的“利器”——英伟达GPU芯片却面临断供的危机。

根据中国信通院的数据,2021年第四财年英伟达占据了全球95.7%的GPU算力芯片市场份额。但早在2022年8月,英伟达就受美方限制对中国区客户断供高端GPU芯片,其中用于大语言模型训练的A100和H100赫然在列。

“国内很多科技企业离不开A100芯片,有企业去年下半年起就持续在市场中‘抢芯片’,甚至为获得芯片购买能拆出A100的整机产品。虽然英伟达特意为中国区客户提供了可以代替A100的A800芯片,但其数据传输速度被限制了,功耗也增加了。”陈川说。

谁有可能接棒英伟达在中国的市场份额?

新京报贝壳财经记者不完全统计,国内自主研发AI芯片的国内企业包括海光信息、寒武纪、龙芯中科、壁仞科技等,一些大厂也拥有自研的AI芯片,如百度昆仑芯片、阿里含光800分别支持了各自的大语言模型的训练。

英伟达建立护城河并非一朝一夕。除芯片本身,英伟达从2006年起就开始着手开发CUDA(统一计算设备架构),通过 CUDA 编程,可以充分利用 GPU 的并行处理能力,从而大幅提升计算性能。AI 发展的数十年间,英伟达通过对 CUDA 开发和社区的持续投入,CUDA 和各类AI框架深度绑定。这也导致当前排名靠前的AI框架,使用英伟达显卡训练是最好的选择。

“在AI芯片端,我国和国外的差距主要有两个方面,第一个方面是来自芯片设计维度和应用维度,中国的设计公司虽然在设计能力上逐步缩小与海外巨头的差距,但AI芯片的软件生态建设、基础架构等方面还是掌握在巨头手中,如英伟达CUDA,目前我们还不能完全在硬件编程模型上找到CUDA的替代方案。第二个方面是在地缘性政治的背景下,国内无法在AI芯片的全产业链中实现独立自主,卡脖子的方面还很多,如EDA工具,代工制造和先进封装领域。”钱禹说。

面对如此稳固的“护城河”,国内企业需想尽一切办法越过英伟达“高山”。

其中,兼容CUDA生态是可选路径之一。海光信息就在科创板上市招股书中表示,海光DCU系列产品以GPGPU架构为基础,兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等应用领域。

此外,国产扶持也是路径之一。北京某G端人工智能项目负责人告诉贝壳财经记者,国内一家AI芯片制造商是其长期客户,“如果不这样,国产芯片不可能做得起来,因为外国企业有自己的软件架构,当整个产业都适配这个架构,形成了一个完整生态的时候,从零起步打造自己的架构就会‘费力不讨好’,所以我们只能指定国内的芯片公司负责我们的项目,通过这种方式扶持国产芯片。”

中信证券近期发布研报称,国内GPGPU发展水平落后海外5到10年,“自研IP越多,芯片设计上越有把握,产品的差异化更明显。但相对而言,资金、人员、时间上的成本投入也更高。GPU IP自研需要36-48个月以及200个工程师,而采用外购IP的方式,可以减少12-18个月开发周期。”

陈川告诉贝壳财经记者,中国的芯片从业者并不缺乏奋勇争先的梦想,但在AI芯片领域以超越英伟达为目标进行市场宣发、制定战略天然就有风险。如壁仞科技曾聚集了一众有英伟达、AMD、华为海思任职背景的芯片研发“大牛”,并在去年8月发布了首款基于台积电7nm工艺制造的通用GPU芯片BR100,号称在性能上能够媲美英伟达的H100,但截至目前还缺乏市场商业化认可,公司内部也陷入了裁员、人事变动等风波,今年3月27日图形GPU产品线总经理焦国方离职。