新闻中心

中国工程院院士郑纬民:超算完全可用于大模型训练 且极具成本优势

时间:2023-12-06 来源:C114

12月5日消息 经国务院批准,由科技部和河南省政府共同主办,以“5G变革 共绘未来”为主题的2023世界5G大会将于12月6日至8日在河南省郑州市郑州国际会展中心举行。

围绕“强基韧链与引领带动”、“赋能产业高质量发展”,2023世界5G大会设置12个平行论坛,助力全球顶尖5G产业合作和资源整合。在世界5G大会正式开幕前夕,以“融合创新提升价值空间”为主题的“Tech Talk 2023 创新技术论坛”在今天率先拉开帷幕。

论坛期间,中国工程院院士、清华大学教授郑纬民院士应邀作了题为《支持大模型训练的三种算力系统》的主题演讲。郑纬民院士指出,目前支持大模型训练的有三种算力系统,分别为基于英伟达公司的GPU系统,基于国产AI芯片的系统,以及基于超级计算机的系统,三种算力系统各有优劣。

 1.jpg

解决10大软件难题:国产AI芯片破局之路

郑纬民表示,英伟达GPU系统的优点是硬件性能好,生态也比较完善,所以大家都喜欢用。但问题在于中美博弈所引发的禁售风险;同时,英伟达GPU产品价格高,价格暴涨的同时还一卡难求。当然,这也给国产AI芯片一个难得的发展机遇,目前国内已经有30多家公司推出了国产芯片,“但用户不太喜欢用,核心问题就是生态不好。”

在郑纬民看来,如果国产AI芯片硬件达到国外芯片的60%性能,只要能把软件和生态做好,用户也是满意的,“如果软件和生态没做好,即便硬件性能再强,照样没人用。”

郑纬民总结了十大关键软件技术,分别是编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等问题。“如果把这些问题解决好,即使只有国外芯片60%的性能,国产AI卡也会大受欢迎。”当然,郑纬民也希望国内广大用户尽可能采用国产AI芯片,以用促建,以用促研,不断的给予正向反馈。

软硬协同设计:国产超算完全可以支持大模型训练

郑纬民指出,不止于GPU这种算力形态,超级计算机也完全可以用于支持大模型训练,但需要从源头做好软硬件协同设计。

目前,我国超算水平已经处于国际第一梯队,有14个国家一级超算中心,另外还有不少由地方和行业建设运营的超算中心。这些超算中心在科学计算上做得很不错,发挥了很大的作用,但是部分超算中心的算力利用率并不饱和,完全也可以用这些机器来做大模型训练。

“但利用超算来进行大模型训练,更要注重软硬件协同设计。硬件发展很快,过去一台机器,基本是CPU+内存+硬盘就可以,但是现在计算部件不只是简单的CPU,还有很多新的器件出现;软件方面,不论是人工智能应用软件,还是基于图数据的图计算应用,以及大数据应用,软件已和过去不一样,如何将软件和硬件更好协同起来非常重要。”

以郑纬民院士团队开发的“八卦炉”大模型为例,通过设计和优化,依托超算算力资源完全可以达到英伟达GPU平台的性能。除此之外,郑纬民院士团队目前已经把LLaMA大模型在超算上成功运行,国内的百川大模型等也已经成功运行,而且成本只需要英伟达平台的六分之一! 


返回上级