首页 > HPCMid > HPCMid-2022 > 邀请报告

邀请报告

刘伟峰.jpg

刘伟峰,中国石油大学(北京),教授

中国石油大学(北京),教授、博士生导师,欧盟玛丽居里学者。2002年和2006年于中国石油大学(北京)计算机系获学士与硕士学位。2006年至2012年在中国石化石油勘探开发研究院历任助理工程师、工程师和高级研究师,其间主要研究领域为石油地球物理勘探的高性能算法。2016年于丹麦哥本哈根大学获计算科学博士学位,主要研究方向为数值线性代数和并行计算,其中尤其关注稀疏矩阵的数据结构、并行算法和软件。研究工作发表于SC、ICS、PPoPP、ASPLOS、IPDPS、ICPP、TPDS、JPDC、FGCS和Parco等重要国际会议和期刊。担任TPDS、SISC和TKDE等多个重要国际期刊审稿人,以及SC、ICS、IPDPS和ICPP等多个重要国际会议的程序委员会委员。

报告题目:PanguLU:一个面向异构分布式平台的开源直接法解法器

报告摘要:稀疏LU分解是使用直接法求解非对称线性系统的关键步骤之一,经常是众多科学与工程应用中相当耗时的一个操作。由于稀疏LU分解的计算量一般很大,其数据依赖和计算模式也往往十分复杂,所以将其在异构分布式平台上进行性能优化一直非常困难,特别是会遇到计算资源利用率不足、各节点计算负载不均衡和通信开销成本过大等问题。现在大多数可以部署在分布式集群上的直接法解法器如MUMPS等都是使用CPU进行运算,但是未能利用GPU的计算能力;而SuperLU等虽然可以使用GPU进行GEMM部分的加速,但是由于矩阵分块大小等限制,对于GPU的使用效率一般并不理想。本次报告将介绍我们近年来在异构集群上加速稀疏LU分解的一系列优化工作,以及对应的开源分布式直接法解法器软件包PanguLU(注:软件包命名取“盘古开天地”之意,经矩阵分解后,“天”为U矩阵,“地”为L矩阵)。在异构集群上的实验结果表明,我们的工作在很多稀疏矩阵上的性能和可扩展性要优于MUMPS和SuperLU等现有LU分解软件包一个数量级以上。

李士刚.jpg

李士刚,北京邮电大学,计算机学院(国家示范性软件学院),特聘研究员,博士生导师,并行计算与系统实验室(PCSL)创建者及负责人

2018年至2022年,苏黎世联邦理工学院博士后研究员。北京科技大学-伊利诺伊大学香槟分校联合培养博士。曾任中科院计算所计算机体系结构国家重点实验室助理研究员。深耕高性能深度学习系统、并行与分布式计算领域,主持及参加多项国家级及企业委托科研项目,在SC、PPoPP、ICS、HPDC、TPDS、TACO等重要会议及期刊上发表论文40余篇。一作文章连续三年获高性能计算领域顶会最佳论文提名(SC'22、SC'21及PPoPP’20),获HPDC'13最佳论文提名;获MLSys'21杰出论文奖。受邀担任SC、PPoPP等权威学术会议TPC委员30余次。PPoPP’23宣传主席,IISWC'20出版主席,ICS'18 研讨会主席,Cluster Computing编委。CCF高性能计算专业委员会委员,ACM中国高性能计算专家委员会委员,CCF及ACM高级会员。

报告题目:Efficient Quantized Sparse Matrix Operations on Tensor Cores

报告摘要:模型大小的指数级增长推动了深度学习的持续成功,但这却带来了令人望而却步的计算和内存成本。从算法的角度来看,已经有研究工作通过模型稀疏化和量化来缓解上述问题。从处理器架构的角度来看,硬件供应商提供了张量计算核心(Tensor Core)来加速不断增长的工作负载。然而,由于对数据布局的严格要求和缺乏高效的低精度整型数据集结操作,让低精度稀疏矩阵运算在张量计算核心上获得实际加速是非常具有挑战性的。为此,我们研发了Magicube。Magicube是一个张量计算核心上的高性能低精度整型稀疏矩阵运算库。Magicube支持深度学习中 SpMM 和 SDDMM两种主要的稀疏矩阵运算,同时支持混合精度。通过在 NVIDIA A100 GPU 上对1536个不同稀疏矩阵的性能测试表明,相比商业优化的稀疏矩阵库,Magicube平均获得1.44 倍(最高 2.37 倍)加速比。在端到端稀疏 Transformer 推理中,Magicube相比最新工作获得1.43倍加速比而无明显准确度损失。这项工作已被SC 2022录用。

刘杰.jpg

刘杰,国防科技大学,研究员

国防科技大学研究员,博士生导师,长期从事高性能计算应用研究工作,国家大型科技攻关项目银河、天河超算系统副总师。主持了完成了多个大型科学与工程计算应用软件、并行算法库的研制工作。国家重点研发计划项目首席,主持自然科学基金、装备预研等项目10多项。获国家科学技术进步特等奖和二等奖各1项,国家创新争先奖牌奖1项、军队科技进步一等奖3项,湖南省技术发明一等奖1项。申请国家发明专利20余项,发表学术论文100余篇。

报告题目:面向天河新一代超算系统的算法和软件

报告摘要:超算能力是国家综合国力和信息化建设水平的重要体现,算法和软件是发挥超算系统性能的关键因素。本报告围绕超算应用需求与挑战,介绍了天河超算系统的发展历史,新一代天河系统的体系结构特点与组成,使用中以软件开发平台模式应对超算应用软件危机,汇聚共性数值问题,吸纳最新算法成果,发展并行算法和软件优化方法,算法和软件要拟合系统,持续优化改进性能,支撑应用快速开发,充分发挥超算系统计算性能,最后介绍了部分典型应用案例,并展望了超算未来的发展趋势。

半身照-王龙.JPG

王龙,北京华为数字技术有限公司,计算系统优化首席专家

理学博士,历任中科院计算机网络信息中心超级计算中心 研究员(教授)、博导、技术总监;百度系统部技术委员会主席。现为华为计算系统优化实验室主任(CSO Lab,中文北冥) 、计算系统优化首席专家

报告题目:鲲鹏处理器的HPC应用优化与性能可移植研究

报告摘要:用户使用计算系统时最关心的是自己的应用软件可以取得多少实际性能(有效算力),而这取决于“建模-算法-性能-硬件”四大链条的乘积。北冥实验室主要关注两个问题:1)如何对华为的软件栈(编译器、数学库、求解器、MPI等)形成应用驱动牵引,让HPC应用软件可以在鲲鹏上获得极致性能?2)如何发展AI建模+自动性能工程的关键技术,获得E级计算系统上的极致有效算力?我们将介绍鲲鹏处理器的Top10应用软件优化、Flow自动优化研究、E级系统的软硬件协同设计、应用感知的存储系统加速、AI for Science建模等工作。

喻之斌.jpg

喻之斌,华为云竖亥实验室/中科院深圳先进院,主任/首席科学家

博士,华为云竖亥实验室主任,首席科学家,中科院深圳先进院研究员。主要研究方向为应用程序特征驱动的处理器体系结构设计与系统性能优化。研究成果多发表在CCF A的国际会议如ASPLOS、MICRO、ISCA、HPCA、SIGMOD,和CCF A类的期刊如IEEE TC、IEEE TPDS、和IEEE TCAD上,部分成果以及开始在工业实践中得到大规模使用。

报告题目:应用驱动的体系结构设计与系统性能优化

报告摘要:随着领域体系结构(Domain Specific Architecture)时代的到来,理解应用程序的特征变得十分重要,但也存在众多挑战。例如,缺乏满足要求的特征采集工具,没有实用的特征分析方法等。本报告首先介绍我们在与微架构无关的特征采集工具XMIC/ARMIC/JXMIC/JRMIC方面的工作。其次,介绍利用这些工具所采集的特征及其分析举例。其次,介绍利用这些特征构成的benchmark。最后,本报告将分享利用应用特征进行的性能优化工作。

谭光明.png

谭光明,中科院计算技术研究所,研究员

研究员、博导、中科院计算技术研究所高性能计算机研究中心主任。国家杰出青年基金获得者,参与了曙光系列高性能计算机系统研制。发表学术论文100余篇,曾任IEEE TPDS编委和国际会议(SC、PPoPP)等程序委员。曾获得国家科技进步奖二等奖、卢嘉锡青年人才奖和全国向上向善好青年称号。

报告题目:高性能计算性能工程

报告摘要:高性能计算领域的核心命题是关于如何满足应用性能需求,与一般性计算问题相比而言,性能通常是第一优先级考虑的指标。总体上而言,影响性能的诸多因素主要包括:硬件设计(流水线、向量宽度、cache大小等)、算法模型(复杂度等)、实现方式(编程语言、数据结构、库的版本等)、代码生成(编译器)、系统配置(操作系统的选择等)和执行环境(亲和性选择、资源分配和系统噪音等)。在真实的运行系统中,这些性能因素之间不是独立正交,而是相互影响形成一个非常复杂庞大的优化空间。在单纯以软件工程驱动的高性能计算软件栈设计中,人们为了追求高的生产效率,通过分层模块设计把错综复杂的性能因素“粗暴”地割裂开,在通用硬件性能提升放缓的情况下,所谓的软件“肿胀”导致的性能瓶颈问题就凸显出来。这种性能损失对以性能为第一优先目标的高性能计算而言显得尤为突出,因此,在继高性能计算的硬件工程和软件工程技术系统发展多年之后,本报告试图提倡高性能计算性能工程的研究,以系统发展性能工程技术,应对高性能计算软硬件栈在后摩尔时代的挑战。

薛巍.jpg

薛巍,清华大学,所长/副教授

清华大学计算机科学与技术系副教授,青海大学计算机技术与应用系主任,国家超级计算无锡中心总工程师,中国计算机学会高级会员和信息存储技术专委会委员。主要研究领域为大规模科学计算、量化不确定性分析。曾获中国电子学会科技进步奖一等奖和电子信息科学技术奖一等奖,教育部科学技术进步奖一等奖,“清华大学-浪潮集团计算地球科学青年人才奖”,ACM“戈登?贝尔”奖。

报告题目:面向偏微分方程显式求解器的高性能代码自动生成工具

报告摘要:异构架构的广泛使用使得编写高性能代码的复杂程度大幅增加。为了增强科学计算应用的性能可移植性与开发生产力,针对偏微分方程显式求解器,我们设计了基于Python的领域专用语言,以时间积分、空间离散为界将计算表达与优化实现分离。用户基于物理网格开发串行求解程序,代码工具根据网格类型与计算模板自动完成负载均衡划分,基于性能模型搜索计算核心的全局优化策略,最终生成高性能的并行代码。本报告以中科院大气所GMCORE动力框架面向新一代神威超级计算系统和通用集群系统的重构工作为例初步展示了上述工具的可行性。

彭林.jpg

彭林,国防科技大学,副研究员

博士,国防科技大学计算机学院计算机研究所副研究员。长期从事国产高性能计算机系统研制,主要研究方向为大规模并行程序开发环境,包括并行编程模型与编译优化、并行程序调试与性能分析等。获省部级科技进步一等奖3项,二等奖2项。参与国家重点研发计划、军队预研等国家和军队重点项目多项。

报告题目:面向新一代天河异构处理器的程序设计与优化

报告摘要:高性能计算是推动科学技术发展的基础性领域之一,当前作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临。面向E级高性能计算的加速领域成为了全球高端芯片的竞技场。国防科技大学自主设计的面向新一代天河系统的异构处理器MT3000,是构建E级系统强有力的竞争者。本报告首先介绍MT3000处理器的体系结构、编程方法,再介绍针对MT3000体系结构的程序设计与优化方法。

张鹏.jpg

张鹏,中物院高性能数值模拟软件中心,副研究员

2017年毕业于中国科学院软件研究所,获计算机软件与理论博士学位。现为中物院高性能数值模拟软件中心副研究员,性能团队负责人。主要研究方向为并行计算、面向硬件体系结构的数值软件性能优化等。

报告题目:SEMD:一种面向数值模拟领域的性能可移植编程接口

报告摘要:新型异构体系结构的快速发展给复杂数值模拟软件的跨平台移植和性能优化带来巨大挑战。尽管面向单一处理器架构对特定软件实施手工代码移植和优化能够取得显著的性能收益,但却面临着代码跨平台可移植性低、优化可复用性差等诸多瓶颈,不能满足批量复杂数值模拟软件持续匹配处理器架构发展而获得高浮点性能的需求。针对这一需求,设计实现了一种面向数值模拟领域的性能可移植编程接口SEMD。该接口采用数值模拟领域通用的高层语义对编程模型进行抽象,完全屏蔽底层硬件特征和性能优化实现,使得基于该接口编写的数值计算子程序能够自动实现跨平台性能可移植。典型算例测试结果显示,在X86和GPU两种处理器架构上,SEMD的优化效果能够达到或超过国际上同类产品。目前,该接口已在结构、流体、电磁等领域多款数值模拟软件的研发中得到初步应用。

杨海龙.png

杨海龙,北京航空航天大学计算机学院,副教授/院长助理

北京航空航天大学计算机学院副教授,博士生导师。CCF高级会员、CCF体系结构专委委员、CCF传播工委委员。主要研究方向为高性能计算、性能分析与优化、分布式与并行计算、编译优化技术。近年来,主持和参与了多项国家自然科学基金项目和国家重点研发计划项目。目前已在SC、ISCA、ASPLOS、ICSE、PLDI、ICS、ICPP、CLUSTER、IPDPS、TC、TPDS、TOCS、TCAD等国际会议和期刊上发表多篇学术论文。担任CLUSTER21体系结构领域共同主席,TPDS、TC、JPDC、FCS等期刊审稿人。担任北京航空航天大学本科生超算队教练,指导学生团队多次获得国际和国内赛事奖项。

报告题目:面向高性能计算的系统性优化方法与技术探索

报告摘要:高性能计算通过整合海量的计算、存储和网络资源,为科学应用提供了持续的算力支撑,已经被广泛应用于科学研究的各个领域。然而,硬件的峰值运算能力并不等同于应用的有效算力,超级计算机由于其异构的处理器设计、复杂的内存层次以及独特的网络互连,使得应用的计算性能优化极具挑战性。特别是随着E级超级计算机的成功研制,如何适配程序多样化的计算特性和超级计算机复杂的系统结构以实现应用的高性能和高可扩展,仍然是高性能计算领域亟需解决的科学问题。本报告以程序性能优化为着力点,从体系结构高效适配、编译优化与自动调优、程序低效行为分析等方面,探讨实现应用的高性能和高可扩展的系统性优化方法与技术。

张峰.jpg

张峰,中国人民大学,副教授

中国人民大学杰出学者系列人才岗位副教授、博导,中国计算机学会高专委委员、数据库专委委员。2017年毕业于清华大学计算机系,同年加入中国人民大学数据工程与知识工程教育部重点实验室。研究方向包括高性能计算和数据库,主要研究大数据环境中压缩数据的高性能直接处理与分析。在SC、USENIX ATC、SIGMOD、VLDB等会议、期刊发表CCF A类论文三十余篇。任多个国际期刊与会议的审稿人,承担国家自然科学基金等多项国家项目,获ACM SIGHPC中国新星奖等。

报告题目:适配GPU体系结构的压缩数据直接计算技术研究

报告摘要:压缩数据直接计算技术是最近提出的一项先进的大数据处理技术。GPU作为一种流行的加速器件常受制于有限的片上内存无法处理更大规模的任务,而压缩数据直接计算技术则可以使GPU处理更大规模的数据。我们提出里一种基于上下文无关文法的非结构化数据压缩直接计算技术,能改在未解压的状态下直接对数据进行处理,同时能够利用数据冗余特性加速计算过程。为了将这项技术适配GPU,首先,我们为 GPU 线程开发了一种新颖的细粒度线程级工作负载调度策略,该策略可自适应地划分高度依赖的负载。其次,我们在 GPU 上开发了一个具有线程安全数据结构的内存池。再次,保持数据单元之间的序列信息对于无损压缩至关重要,我们设计了一种序列支持策略,在保证序列信息的同时保持高 GPU 并行性。

翟季冬.jpg

翟季冬,清华大学,副教授

清华大学计算机系长聘副教授,博士生导师。现为清华大学计算机系高性能所副所长,ACM中国高性能计算专家委员会秘书长。主要研究方向包括高性能计算、性能评测和编译优化等。研究成果获ACM ICS 2021最佳学生论文奖、SC 2014 Best Paper Finalist。担任NPC 2018程序委员会主席、IEEE Cluster 2021领域主席、SC 2022领域副主席,SC、ICS、PPOPP、PACT等国际学术会议程序委员会委员。目前担任IEEE TC、IEEE TPDS、IEEE TCC等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十二次获得世界冠军。获教育部科技进步一等奖、中国电子学会科学技术一等奖、中国计算机学会优秀博士学位论文奖、国家自然科学基金优秀青年科学基金、CCF-IEEE CS青年科学家奖。

报告题目:基于国产超算的百万亿参数超大预训练模型训练方法

报告摘要:大规模预训练模型已经在一系列重要应用中显示出其先进性。随着预训练模型规模的急剧增长,训练此类模型需要海量的计算和存储能力。为此,我们在国产新一代高性能计算机上训练了一个174万亿参数的超大规模预训练模型,模型参数与人脑中的突触数量相媲美。本报告中,介绍我们在加速这一模型中遇到的挑战以及相应的解决方法。