
智算科技万卡集群攻坚团队合影。 (受访者供图)
跟着电扇捏续轰鸣,上万张GPU(图形惩办器)与几十万根高速汇集线缆在约30个模块化机房里交汇运转——在位于松江的仪电智算中心,记者直不雅感受到万卡集群的庞杂。
万卡集群的背后,是一支平均年岁仅32岁的后生攻坚团队——上海智能算力科技有限公司智算科技万卡集群突击队。他们所搭建的,不仅仅算力基础设施,更是相沿往日智能世界运转的底座。
把上万张GPU变成“一个大脑”
算力动作数字经济的要紧底座,主要分为通用算力、智能算力和超算算力。其中,智能算力依托GPU,为AI检修和推理提供中枢相沿。所谓“万卡集群”,即是将一万张以致更多顶级GPU,通过高速汇集与软硬件系统邻接起来,形成一个妥洽调治的“超等AI计算大脑”。但实在的难点,并不在“堆数目”,而在“作念协同”——让不同架构、不同代际、不同厂商的GPU,在顶点限制下像一个东谈主一样高效协同。
开发万卡集群时,机房基础环境、汇集、单机可靠性、调治系统等皆是需要逐个攻破的痛点。“以机房为例,散热、供电、冷却、洁净度,任何一个设施失守,皆可能让集群无法启动。一粒轻微的灰尘投入光模块,酿成的后果皆难以念念象。”上海仪电集团旗下上海智能算力科技有限公司系统工程中心总监、团队厚爱东谈主胡宝群告诉记者,从冷热通谈探究、下千里式地板到天花板回风系统,每一处细节皆经过精密计算。供电系统不仅要够用,更要已毕负载平衡与多重冗余,即便单路故障也不影响举座启动。冷却系统则需反复测算,确保顶点负载下温度仍是可控。
汇集侧相似是一项“精密工程”。团队采取Spine-Leaf架构,捏续优化交换机配置与通讯合同,追求极致的低蔓延与无损传输。每一根光纤、每一个端口皆需全秘籍测试,确保NCCL等通讯库启动遵循达到极限。此外,每批干事器上线前皆要资格高强度“铁血压测”,模拟确凿检修场景中的计算、内存与I/O压力,提前深化隐患。如今,团队已建立起快速故障会诊与展望性预防机制,将单机故障率压降至最低。
应付调治与踏实性的极限挑战
如若说“建起来”仅仅第一步,那么,“稳启动”才是实在的难关。“AI算力芯片的故障率远高于传统IT设备。在大模子检修过程中,哪怕1分钟的中断,皆可能导致数十小时的检修后果付诸东流。”胡宝群默示,在万卡集群中,算力调治的复杂程度,堪比让上万架无东谈主机在归并派空域高速摇荡且不发生碰撞。任何微小偏差,皆可能带来系统级影响。
为此,智算科技系统平台部厚爱东谈主翟雨佳辅导团队,米兰体育把不同厂商、不同代际,以致国产和入口卡一谈拉进归并个集群,让它们像一个举座一样协同责任。他们始创的“动态感知调治决议”,使检修遵循飙升,已毕羼杂架构万卡集群调治本领的自主可控。
为了0.1%的遵循升迁,团队以致曾一语气79天督察机房,吃住一体,反复打磨代码、优化算法。在伏击任务中,他们冲破传统线性历程,采取“并行施工+边测边调”的方式,分秒必争鼓吹风景进程。最终,集群已毕99.99%的高可用性,相配于全年故障时候减少378小时。这一踏实智商,已相沿多模态大模子检修达到国际逾越水平,同期保险自动驾驶模子逐日100万公里造谣路测,以及神态大模子提前7天预警顶点天气。
翟雨佳默示,为了更高效运维万卡集群,团队刻下也在研发AI智能体,让万卡集群相互市欢配合,快速展望问题,作念到底层算力保险。“咱们当今基本上不错作念到分钟级以致秒级定位故障,在5分钟内收复业务。中枢看法是让底层算力基础设施像水电煤一样踏实供给。”
要作念下一代工程师
在这座“数字发电站”的背后,是一支建立于2023年的百余东谈主团队,平均年岁仅32岁。团队中,七成成员来自互联网大厂,六成为硕士及以上学历,还有多位国外总结的本领大众。
“咱们要作念下一代工程师,而不是现代工程师。”胡宝群这么界说团队的场所——捏续自我检阅,从用具链到坐蓐方式,再到价值创造旅途,皆要不断被重构。刻下,这支军队已完成数十万张高性能算力卡的部署,适配多款国产GPU。
万卡集群是近几年跟着大模子发展而建议的新需求,这支军队恰是在攻坚实战中考验出来的。智算科技董事长、总司理、党支部通知孙跃默示:“动作一家平台型的链主企业,咱们不光要建万卡集群,更要赋能国产大模子及AI+期骗,包括国度计策任务的奉行和推动。咱们要牵引产业链上的国产软硬件厂商、GPU和汇集交换设备企业,带动凹凸游共同发展。”
团队小传
上海智能算力科技有限公司智算科技万卡集群攻坚团队,一支百余东谈主构成的后生标兵米兰体育app官网,平均年岁仅32岁。承担上海市多项智算集群开发任务,提供GPU算力资源与智能调治平台,干事重心大模子企业及顶尖商议机构。2025年获世界科技翻新后生突击队岗亭立功竞赛独特奖。
轮盘app官方网站下载
