新闻中心

院士说 | 郑纬民:大模型训练完全可以用国产超算来支撑

时间:2024-01-26 来源:世界5G大会

2023世界5G大会日前在河南省郑州市圆满落幕,中国工程院院士、清华大学教授、超算领域专家郑纬民在大会期间介绍了支持大模型训练的三种算力系统,他同时表示,国产超算完全可以支持大模型训练。

640 (10).jpg

郑纬民院士称,目前支持大模型训练的主要有三种算力系统,一是基于英伟达公司的GPU系统,二是基于国产AI芯片的系统,三是基于超级计算机的系统。英伟达GPU系统的优点是硬件性能好,生态也比较完善,但中美博弈加上产品价格高,给国产AI芯片带来了难得的发展机遇,目前国内已经有30多家公司推出了国产芯片,“但用户不太喜欢用,核心问题就是生态不好。”

郑纬民院士表示,不依赖国外芯片技术改变国产大模型生态系统发展局面,编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统这十大关键软件技术值得重点投入。

“如果国产AI芯片硬件性能达到国外芯片的60%,大多数用户也是可以满意的,因为硬件再好这十个软件做不好,也没有市场。”郑纬民院士呼吁,一定要把这十个软件做好,改变国产系统的生态。“如果把这些问题解决好,国产AI卡也会大受欢迎。希望国内广大用户尽可能采用国产AI芯片,以用促建,以用促研,不断的给予正向反馈。”

郑纬民院士提到,目前,我国超算水平已经处于国际第一梯队,有14个国家一级超算中心,另外还有不少由地方和行业建设运营的超算中心。这些超算中心在科学计算上做得很不错,发挥了很大的作用,但是部分超算中心的算力利用率并不饱和,完全也可以用这些机器来做大模型训练,但需要从源头做好软硬件协同设计。

“硬件发展很快,过去一台机器,基本是CPU+内存+硬盘就可以,但是现在计算部件不只是简单的CPU,还有很多新的器件出现;软件方面,不论是人工智能应用软件,还是基于图数据的图计算应用,以及大数据应用,软件已和过去不一样,如何将软件和硬件更好协同起来非常重要。”


返回上级