百度资深工程师周谞:大模型背后的数据中心光网络演进
日期:2024-05-29 08:51:23   来源:新闻动态

  昨日联合举办的“2024中国光通信高水平质量的发展论坛”第四场研讨会——“AI时代:数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家,深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

  会上,百度资深工程师周谞应邀作了题为《数据中心光通信技术趋势》的主题演讲,重点介绍了数据中心之间DCI光互联、数据中心内DCN光互联,以及在现有大模型下,OTN与其结合等光通信技术问题。

  周谞表示,在数据中心之间DCI光互联方面,城域单波传输技术大致每3~4年有一次迭代,从2017年至2019年的单波200G,波道间隔50GHz,到2020至2023年单波400G,波道间隔75GHz,到现在已经到来的单波800G,波道间隔150GHz,单波速率的提升能带来成本的降低,也存在速率迭代年限与机房系统使用年数的限制不匹配的矛盾。传统方案中,固定的间隔和限定速率,在应用更新一代的单波传输技术时,使系统难以引入更高速率的电层板卡。

  2023年,百度引入了FlexGrid系统,其灵活网格方案波道可变功能,取代传统使用的固定间隔的AWG功能。灵活系统方案能轻松实现在无需改造条件下,适应不一样速率,实现400G和800G系统的平滑升级。根据场景,选择最优的速率,总系统的频谱得到更好利用,以期在2024年这一800G速率换代时期,取得更好的收益。

  此外,随着数据中心之间业务云化,以及云规模的日渐增大,同一云业务可能被部署在不同数据中心,这就对数据中心之间传输稳定性提出更加高的要求。周谞表示,传统传输系统保护倒换时间大致在50ms,这一时间在电信领域存在近20年,而通过高速磁光开关取代传统的机械式光开关,及优化DSP等,第一次实现了5ms高速保护倒换时间。同时,在设备出现业务中断的情况下,通过传输设备主动介入技术,实现整体网络的相对稳定。

  IP over WDM方面,随着光子集成技术的发展,通过封装技术实现光信号直接从交换机出来后具备长距离传输能力,改变传统的需要额外电层设备完成线路到客户的转换过程。当然,这需要IP+光统一网管协同,适用机房之间近距离传输。同时,这种相关光模块对接上,测试中面临着个别厂商模块抗裂化能力差,不同厂商对接上的难题。

  在传输的运维和管理上,大部分现有厂商采用的是开放式光传输系统的方案,所有设备通过统一建模,完成设备与网管之间的交互,再通过统一的网管实现对所有设备的管理,提升自动化开发效率。从传统运维,各厂商自己完成从网管到设备,到统一化运维,统一网管,统一运维培训体系,再到智能化运维,本质上是为了更进一步提升效能。

  周谞表示,在AI时代,整个数据中心内部对光互联的需求也非常大。HPN网络主要是针对GPU训练集群的专门网络,其里面存在多种训练方式,以实现不同GPU之间信息共享,而GPU 卡之间的通信带宽速率的提升,会带来训练时间的减少,以及成本的降低。但是大模型参数增长非常快,数据中心内光宽带如何跟上节奏,成为很重要的议题。以 IB/RoCE 为代表的跨GPU 服务器互联技术,当前速率在400G/800G时代,伴随训练规模的变大和算力的提升,未来向1.6T及更高速率发展。虽然现有的交换机加光模块形式能满足一些需求,但却面临更加大的成本和功耗压力,这就引出了对线性直驱光模块(LPO)的需求。

  相比传统光模块,LPO将DSP功能集成到芯片中,降低了模块的功耗和成本,拥有非常良好的可维护性。当然,除了传统光模块和线性直驱光模块方案外,还有别的也有一些方案,比如联合封装技术(CPO)方案,其将光模块功能集成到芯片上,因光子器件离芯片更近,可实现更低的功耗。随着GPU互联对功耗,带宽的要求,CPO将有可能成为GPU互联的一种重要方案。

  OTN与大模型结合方面,百度建立了文心大模型,训练方式包括提示词工程提高大模型唤起的准确率、更高级别的基于人类反馈的强化学习等,让大模型更了解应用场景。整个开发流程能够理解为,用自己的数据生成,注入到大模型训练,得到更理解应用场景的一个大模型,比如OTN大模型,再把这个大模型部署到整个应用环境中,去完成大模型推理等。

  周谞表示,OTN和大语言模型的相互结合,是值得去关注的一个方向。因为传统的运维更多的是基于GUI的界面,即图形界面,随着大语言模型的兴起,其实可以很好的实现人机基于自然语言的对话,慢慢地可能会形成GUI和LUI,即图形交互和自然语言交互的一个运维场景,得到更懂我们的OTN大模型。

  投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才使用者真实的体验计划

  不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237