先进典型

世界大学生超级计算机竞赛山西大学超算队

信息来源:计算机与信息技术学院文字:何家美 甄晨冉 胡杰图片:马夏琳 编辑:李阳

勤耕不辍 载誉而归

近日,ASC20-21(ASC Student Supercomputer Challenge)世界大学生超级计算机竞赛总决赛在深圳南方科技大学落下帷幕。由计算机与信息技术学院高嘉伟老师指导,2017级郭永强,2018级潘文杰、廖常越、张飞飞和2020级唐承捷组成的山西大学超算队创造了我校参加该项赛事以来的两项新纪录:与清华大学、北京大学等高校代表队同获一等奖,总成绩排名全球第七;在打破计算性能世界纪录之后,与清华大学、北京航空航天大学同获“应用创新奖”。

群贤毕至 齐心协力

队员是队伍力量的核心,是维持整支队伍运作的新鲜血液。拥有精兵良将才能打赢一场胜仗,队长郭永强直言:“我是19年10月份开始准备比赛,同时进行超算队招新,确定人选后,紧接着就开始集训”。在被问到如何与队友相识时,队长笑道:“举一个例子,唐承捷,我们都在开源软件协会的社团群里,他在群里非常活跃,对计算机比较了解,我便找上了他。另外三个,我们是在CCF山西大学学生分会相识的,对ASC都很感兴趣,动手能力也不错,并且也都通过了集训队考核”。

厉兵秣马 蓄势待发

赛场上看似简单的数据都需要赛前付出无数的心血和努力。由于疫情的原因,ASC2020和ASC2021合并成ASC20-21,因此山西大学超算队花了近两年时间来备赛。回忆起赛前的训练,队长说:“我们平时集中训练较多,经常在实验室和机房里讨论赛题,晚上讨论到院楼锁门也是常有的事情。平常一有时间大家基本上也都泡在实验室里”。除了平时的基础训练之外,赛前山西大学超算队还进行了加强训练。从五一放假前一周开始至整个五一假期,队员们全部在实验室参与封闭式集训。

通工易事,众擎易举。只有充分挖掘并发挥每一位队员特长,进行分工合作,才能最大限度开发团队潜力。队员潘文杰说:“主要是队长根据我们个人擅长的专业领域来进行分工。我和唐承捷擅长硬件和分布式计算,负责Linux赛题中的量子计算赛题;张飞飞擅长CPU架构下的并行代码调优,负责Linux赛题中的脉冲星搜索赛题;廖常越擅长AI技术则负责人工智能自然语言处理赛题;我们队长比赛经验丰富、综合能力较强,最后就由他负责压功耗和计算性能赛题”。

威尔逊曾说:“要有自信,然后全力以赴——假如具有这种观念,任何事情十之八九都能成功。”赛前队长郭永强便立下一个“小目标”——打破上一届创下的计算性能赛题世界记录。他说:“我去年便有这个想法。经过一年的训练和老师们的指导,我觉得我们超算队的能力在整体上有所突破,奈何去年比赛未如期举办。今年,由我带队,这种想法更加强烈。一定要带大家干出点什么!”

一载蛰伏 一鸣惊人

虽然结果很令人惊喜,但好事多磨。刚到深圳,便出现了一个小插曲。因为南北方温差过大,队长没有及时增减衣物以致体温过高,还未出机场便被拦了下来。随后,队员们一起在机场等待了半小时,直至体温正常后队伍才顺利到达深圳。

大赛在即,时间紧任务重。决赛前两天的主要任务是组建自己的小型超算系统,并保证该系统在3000W功耗下完美运行各个赛题。“比赛中控制功耗很重要,难度也相对较大。我们在两天内进行了具体分工,并且将压功耗这件事决定下来。搭建硬件在ASC2019的时候我们用了整整两天时间,在今年我们只搭建了半天不到,也是运气比较好,找到了比较好的方式打了一套‘组合拳’。”队长郭永强介绍道。压功耗需要多方面的控制,需要团队成员之间的相互配合,最后由队长进行总调控来保证集群以最佳性能运行各个赛题。因赛制要求,要在固定的功耗下取得最佳成绩,不仅需要队员间的齐心协力,而且还要对赛题进行取舍,有时甚至要牺牲自己负责的赛题以保证团队效益最大化。对此,队员们没有一句怨言,而是表示“我们是一个团队,要相互配合,劲往一处使,才能取得最佳成绩。人心齐泰山移。”

尽管团队配合紧密,但面对如此大型的比赛紧张在所难免。比赛时,两个赛题同时运行,队员们都紧张地忙碌着直至中午吃饭前团队才将代码改完。下午也遇到许多问题,导致题目没有完全运行起来。一位队员又因过于紧张忘了将HPCG提前试验运行……面对突如其来的困境,队员们没有乱了阵脚,而是保持冷静,寻找对策,最终在当天比赛结束前十几分钟有条不紊地完成了赛题。在HPCG基准测试中实现了1879GFLOPS的浮点计算性能,同样也刷新了世界纪录。

比赛过程中有坎坷,亦有意料之外的收获。“人工智能赛题跟之前准备得不太一样。”负责这部分赛题的队员廖常越回忆到。在进行这一部分赛题时,面对全新的模型,山西大学超算队随机应变,在硬件上选择多机并行,采用准备的多套方案与优化策略。但是这一大胆的尝试却无法保证结果的正确性。因此,为了保证采用新方法后的正确性,整个团队全天都一直守在电脑前,一遍遍推演着运算过程,中午连午饭都没有吃,直到下午运行出正确答案,大家才长舒一口气。经过队员们的不懈努力,最终人工智能赛题在准确率和训练时间两方面均取得优异成绩,获得人工智能赛题单项第一的成绩,与清华大学、北京航天航空大学一同获得”应用创新奖”。

勤耕不辍 斩获佳绩

队长郭永强说:“在计算性能赛题打破世界纪录算是预料之中,而在人工智能赛题上获得应用创新奖却是我们没有预料到的,我们在颁奖典礼上才得知这个成绩,当时还挺激动的。”负责该赛题的队员廖常越回忆说:“在成功使用分布式训练将模型部署到多个节点并精准控制集群功耗时,有预料到会取得一个比较理想的成绩,但取得第一名是在预料之外。”所谓的意料之外实际上是队员们不断练习、调试的结果;是队员们表面云淡风轻而背后勤耕不辍的结果;是整个团队在我们看不到的地方无限努力的结果。

上天从不会辜负每个努力奋斗的人,将近两载的不断训练,一整天全身心扑在赛题上茶饭不思,一整天盯着电脑到最后腰疼得伸不直……功夫不负有心人,终于在3000W功耗约束下实现整体系统76.71万亿次/秒的HPL持续浮点运算性能,打破了计算性能世界纪录!充分的准备、过硬的技术都为最终的胜利奠基。过硬的专业知识技能加之“泰山崩于前面不改色,黄河决于口心不惊慌”的沉稳让他们在这次比赛中获得了突出的成绩。

古语云“单丝不成线,独木不成林”。近些年来,我校与北京大学的交流合作日渐增多。在ASC20-21大赛中,一群热爱超算的大学生齐聚一堂,迸发出智慧无极限的创新热情。赛场如战场,但又区别于战场。既有看不见的硝烟,亦有交流协作和思想上的碰撞。通过这一平台,我校超算队和其他院校的同学进行了更深一步的讨论交流,彼此相互学习,收获颇多。

戮力齐心 共创辉煌

这次比赛的优异成绩离不开队员们的勤奋努力,更离不开指导老师高嘉伟的悉心指导和陪伴。

“一朝沐春雨,一生念师恩。”赛后,高老师和队员们共同庆祝获得佳绩,同时也让疲惫的队员们借此放松。队长郭永强说:“没有老师的支持很多事情我们是难以完成的。在整个过程中,老师对我们的要求基本上是有求必应,我们需要什么东西,他都尽他最大的努力去满足我们。”队员唐承捷谈起高老师时满是感谢:“在临近比赛时,老师两天开一次会。对我们而言,他不仅仅是我们的指导老师,更是我们的精神支柱。”

高老师对团队的指导不仅是在技术上,更是在生活的方方面面。前期团队训练时,大家都会戴上耳机听着音乐沉浸在自己的技术领域,排除外界干扰,以便专心做题。细心的高老师无意间发现了这个小细节。第二天便买了一个音箱带到实验室,让队员们用音箱放音乐,还一再叮嘱大家不要总是戴着耳机,对听力伤害很大。

除了指导老师的教导,山西大学超算队获得如此佳绩也离不开学校各方面的鼎力相助。“夺得第一离不开老师,学院和学校的支持。我们学院在自然语言处理这个研究方向做得很出色,并且是教育部重点实验室。学院里优秀的老师们给了我很多支持和启发,特别是王文剑院长一直以来对我在学习路线上的指导,以及廖健和谭红叶老师在自然语言处理任务上给我的支持,这些都帮助我夯实基础,快速成长。学院也提供给我们足够的硬件支持,使我们能够反复进行实验。我们取得的成绩离不开学院和学校的大力支持。”队员廖常越说。

以热爱迎万难,怀希望斩荆棘。过硬的专业素质,埋头苦干的勤劳品性,赤诚热烈的母校情怀,再加上各方的鼎力相助,山西大学超算队得以大放异彩,取得佳绩。相信在今后山西大学超算队必将取得更加卓越的成绩。