中国科协近日发布十大产业技术问题,在集成电路产业领域,两个问题上榜,分别是“自主可控高性能GPU芯片开发”和“高端芯片制程受限背景下实现高速大容量光传输技术可持续发展的路径”。
什么是高性能GPU芯片和高速大容量光传输技术?攻关这两大产业技术问题对我国集成电路产业有什么意义?解放日报·上观新闻记者采访了上海硅知识产权交易中心总经理、上海市集成电路行业协会监事长徐步陆博士。
GPU的中文意思是图形处理器,在个人电脑里属于标配,俗称“显卡”。与电脑里的CPU(中央处理器)相比,GPU的串行计算能力不强,但可以有强大的并行计算能力,即能够在同一时间做大量最简单的运算。
看到GPU的这个差异化性能特点后,英伟达公司走出了一条与英特尔不同的发展道路,研发出可用于AI领域的GP-GPU(通用图形处理单元)。这类芯片是GPU的升级版,即中国科协十大产业技术问题提到的高性能GPU,其功能不再局限于处理图形,而是大多数都用在系统的训练和推理。随着大模型的兴起,GP-GPU的市场需求量大幅度增长,让一跃成为全世界市值最高的企业。
由于的高端芯片被禁止出口到中国大陆,“自主可控高性能GPU芯片开发”就成为一个重要问题。令人欣慰的是,近年来国产高性能GPU芯片发展非常迅速,华为昇腾、天数智芯、沐曦、摩尔线程等多个国产GPU已经问世,并投入应用。“在产业生态方面,国产GPU在油气探查、天气预报等一些行业应用领域实现了相对自主可控。”徐步陆说,“同时,在与国际主流GPU兼容这条发展路线上,国产GPU也占据了一定的智算市场占有率。”
上周末闭幕的2024世界人工智能大会上,上海仪电发布的消息印证了徐步陆的判断:根据市政府的部署,仪电智算中心(一期)项目正在全力推进,已建成14000P以上的算力集群,其算力相当于2万卡以上英伟达A100芯片。这一个项目将实现国产和进口GPU混合使用,除了英伟达算力集群,还在建设算力集群和沪产算力集群。目前,已完成天数智芯、沐曦、壁仞三款沪产算力芯片与70B、130B参数大模型的适配测试。
为了让国产和进口GPU协同工作,提高算力利用率,无问芯穹在世界人工智能大会上发布了业内首个千卡规模异构芯片混训平台。这家上海企业与清华大学、上海交通大学科研团队合作,完成了、天数智芯、英伟达等6种品牌芯片的交叉混合训练,将为国内大模型训练提供更多的有效算力。
展望未来技术突破方向,徐步陆认为,国内GPU企业要贴近客户的真实需求,对用户任务的数据类型和计算资源进行预估把控;在芯片架构、制造工艺、三维封装等方面,要与国内产业链展开协同创新;在编程语言、函数库、算子库等工具链环节,要加强技术创新与开源共享。谈及近期GPU硬件设计的突破点,他认为通信是一个瓶颈,可攻关的前沿问题包括GPU片上核间互联、“GPU+CPU套片”的高速片间网络互联和立体封装物理互联、GPU板卡以及集群间互联。
另一个产业技术问题“高端芯片制程受限背景下实现高速大容量光传输技术可持续发展的路径”也与算力息息相关。徐步陆介绍,算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,计算、存储、传输是算力服务的三大环节,其中高性能GPU是计算环节的核心部件,高速大容量光传输则是传输环节的核心技术。
在计算环节,国产GPU与国际顶尖水平尚有差距,然而在传输环节,我国的光网络和5G通信技术已达到国际领先水平。因此,我国可采取“以传补算、以网统筹”的策略,打造新型算力基础设施,以“传输之长”补“芯片之短”,在“东数西算”工程中推动高速大容量光传输技术和产品更快发展。
与电传输相比,用光传输大数据有显著优势。大量电子在高密度电路里运动时,会使器件发热,并产生电磁损耗,这就会影响数据传输的速度。光的运动要“轻盈”得多——速度是全宇宙最快,运动时几乎不产生热量,而且多路光线能在同一个时空里运动并保持各自的独立性,从而大幅节省信号传输通道。
如何在光传输领域取得更多的技术突破?华为公司提出的全光品质运力网络F5G(第五代固定网络)需要我们来关注,这项计划的目标是在“”场景下,构建运力网络的全光底座,实现大带宽、低时延、高可靠的数据传输。G的技术突破点包括:400G光传输网络、全光OXC(光交叉连接)交换、城域波分池化、一跳入算入云和“算力+运力”调度一体化。“只有网络传得快、传得稳,才能确保用户一点接入,算力触手可及。”华为光产品线负责人说。