首页 > HPCMid > HPCMid-2017 > 会议纪要

会议纪要

2017年10月18日,由北京应用物理与计算数学研究所和中物院高性能数值模拟软件中心主办的第三届高性能计算中间件技术研讨会(HPCMid2017)在安徽合肥成功召开。

1509411353931461.jpg

研讨会简介

高性能计算中间件技术研讨会创办于2015年,已在无锡、西安成功举办两届。研讨会以科学与工程计算和大数据处理为需求背景,围绕高性能计算中间件关键技术,邀请国内外学者报告最新研究进展、探讨未来发展趋势,为本领域学者搭建一个展示成果、交流合作的开放平台,促进多学科交叉融合,发现和培养高性能计算中间件技术优秀人才。

1509411377401628.jpg


本届研讨会概况

本届研讨会以“性能优化”为主题,包括特邀报告和Panel主题讨论两个环节。来自国内科研院所、高等院校院校、企事业单位等27家单位的90多名专家、学者参加了会议。莫则尧研究员(北京应用物理与计算数学研究所)、张林波研究员(中国科学院数学与系统科学研究院)、陈一研究员(北京大学)、陈德训研究员(国家超级计算无锡中心)、刘杰研究员(国防科学技术大学)、卢宇彤教授(国家超级计算广州中心)、金钟研究员(中国科学院计算机信息网络中心)、徐小文研究员(北京应用物理与计算数学研究所)、张晨松研究员(中国科学院数学与系统科学研究院)等组委会成员出席了会议,研讨会还特别邀请了中科院软件所的孙家昶研究员、中国科技大学的安虹教授和中科院计算技术研究所的范东睿研究员作为特邀嘉宾出席

会议前期,通过广泛征集、组委会成员会议讨论等流程,确定并遴选了本届研讨会的11位邀请报告人,他们均是活跃在我国高性能计算前沿的一线科研人员,他们中有知名专家,也有优秀青年学者。他们是:

敖玉龙(中国科学院软件研究所,助理研究员)

曹轶(北京应用物理与计算数学研究所,副研究员)

陈建军(浙江大学,教授)

陈一(北京大学,研究员)

崔涛(中国科学院数学与系统科学研究院,副研究员)

何鑫(中国科学院计算技术研究所,副研究员)

李胜国(国防科技大学,助理研究员)

刘伟峰(挪威科技大学,欧盟玛丽居里学者)

杨博(北京应用物理与计算数学研究所,博士后)

袁良(中国科学院计算技术研究所,助理研究员)

赵勋旺(西安电子科技大学,副教授)

本届研讨会Panel讨论的主题为“体系结构发展趋势与性能优化的挑战”。邀请了五位国内知名专家作为主讲嘉宾,围绕Panel主题发表了各自的见解与看法,并与参会人员进行了充分的互动与交流。五位特邀嘉宾分别是:

安虹(中国科学技术大学,教授)

陈德训(国家超级计算无锡中心,常务副主任)

范东睿(中国科学院计算技术研究所,研究员)

刘杰(国防科学技术大学,研究员)

卢宇彤(中山大学/国家超级计算广州中心,主任,教授)

1509411404626809.jpg

邀请报告

上午的6个邀请报告分别由张林波研究员和徐小文研究员主持。

1509411427753278.jpg

首先,由莫则尧研究员做开幕致辞,他介绍了本届研讨会的背景与主题,介绍了研讨会的环节与流程。他希望参会同行能借助研讨会的平台,交流新进展、探讨新想法,取得预期收获。

 1509411451709432.jpg

陈建军教授做了题为《朝向E级计算的大规模网格并行与自动生成方法与软件》的报告。他以外流场计算网格和粘性混合网格为例,指出网格生成是数值模拟的主要性能瓶颈,并基于保形恢复和约束恢复等具有理论收敛保证的Delaunay网格生成方法,结合曲面嵌入技术,通过求解尺寸场光滑凸优化问题的全局最优解进行全自动的网格生成。该高质量、大规模计算网格的并行与自动生成方法从适用于单体问题拓展到适用于复杂几何体问题,从分布式并行方法拓展到多极并行方法。

1509411474879902.jpg

曹轶做了《大规模科学与工程计算中的数据可视化》的报告。他从数据规模、数据复杂度和机理表现三个方面说明机器体系结构日趋复杂的环境下大规模可视分析面临的挑战;通过复杂电磁环境、经纬网格数据等数个应用,展示了远程分布式并行执行的可视分析软件架构。此架构基于网格片数据模型,并采用按需驱动的性能扩展模式,实现了与数值模拟编程框架的无缝对接。

陈一教授以《中间件编程接口的设计与性能优化》为主题展开介绍。报告分两部分,第一部分总结MapReduce的优缺点,通过语言扩展,提出基于内存计算的并行编程模型;第二部分介绍了基于消息传递接口的数组级别集群通信,利用维度描述分布式数组数据,给出通用的解决方案以简化通信,扩展优化场景,并可接收不同的分布式数据,在现有的测试中表现良好。

1509411492555358.jpg

何鑫介绍了在GPU上如何对稀疏矩阵-矩阵相乘进行优化。由于矩阵-矩阵乘法结果的稀疏性未知,目前的研究问题在于未充分利用硬件特点进行优化,且没有跨平台的研究。报告人充分利用GPU的体系结构特征,使用NVidia GPU shufle指令和分箱策略对输入矩阵进行分类,设计了基于寄存器的SpGEMM优化kernel,并进一步给出了基于shared memory的SpGEMM实现。

李胜国做了题为《基于秩结构矩阵的求解特征值问题的快速并行算法》的报告。对于HSS (Hierarchically Semi-Separable)矩阵非对角块低秩的性质,设计快速的矩阵向量乘法和线性方程组求解算法。该思想可用于求解特征值的分而治之法中三对角矩阵特征值的求解,降低了计算量。

1509411512463530.jpg

赵勋旺做了《基于截断树的并行多层快速多极子方法》的报告。报告从并行策略和并行效率的角度总结了并行实现多层快速多极子方法的划分策略,通过截断树来改善负载均衡,设计并实现改进的具有可扩展性的算法。

下午的5个报告由张晨松副研究员主持。

1509411535854009.jpg

崔涛介绍了三维并行自适应有限元软件平台PHG的新进展以及应用。他以PHG在集成电路互联线参数(电容、电感)提取中的应用为例,展示了网格生成、问题离散、后验误差估计以及线性求解器等整体流程的设计与性能表现。对于求解器部分,报告表明符号计算与实时编译等手段对于解的导数计算、有限元基函数的积分计算等方面具有优势。

敖玉龙做了《神威•太湖之光上stencil计算的并行与优化》的报告。对于大气模拟问题,该报告中以计算通信重叠为目标,尽可能让从核阵列进行连续访存,从而得到众核加速效果。对于爆炸模拟的优化,则通过消除依赖的线程分块,冲突避免的数据交换,负载均衡的协作计算,复用数据的向量化方案获得良好的并行效率。

1509411579330602.jpg

杨博做了题为《A Queuing Theory-based Modelling for Memory Performance of Stencil Computation》的报告。该报告比较分析了常用的性能优化模型,指出stencil在单核上的性能受限于访存性能,实际使用带宽小于最大带宽,访存并发度受限而非吞吐率受限。随后报告人给出基于排队论的访存性能模型,准确的描述支持并发访存的硬件资源使用和数据传输的时间重叠,预测误差控制在10%以内。

袁良做了《Tessellating Stencils》的报告,提出了基于diamond tiling的两层tessellation算法,并给出了具有洞见力的用于指导stencil分块的数学解析公式。

1509411603886179.jpg

刘伟峰探讨了高带宽封装内存对科学计算的实际影响。封装内存导致更深的存储器层次,因此可期待对于计算受限的程序,性能应该不变;对于访存限的程序,性能会有提升。他介绍了计算大量的稠密矩阵相乘,说明高带宽封装内存可获得普遍更高的性能,并且可以更容易的参数调优,使小矩阵的计算更容易接近峰值。在报告的最后,刘伟峰介绍了基于 valley 模型设计的stepping 模型,并介绍了相应的性能调优手段。

Panel讨论

Panel讨论环节由莫则尧研究员主持,围绕“体系结构发展趋势与性能优化的挑战”这一主题,五位嘉宾结合各自研究与经验,畅所欲言,现场气氛十分热烈。

1509411625701515.jpg

安虹教授结合多年来培养超算人才方面的经验,分享了自己对体系结构与性能优化未来发展趋势的看法。她认为体系结构日趋复杂的趋势不可逆转,如何将晶体管转化为性能还未有太多的理论指导,芯片设计和结构设计还有很长路要走。安虹教授认为中间件技术是解决编程墙问题的一个很有发展潜力的方法,值得大家予以广泛关注。

1509411645449921.jpg

卢宇彤教授结合超算应用的发展谈了自己的看法。她认为超级计算机的发展不应盲目追求机器的“大”,而应该追求应用问题规模的不断扩大。目前应用研究的趋势正从以计算为中心向以数据为中心发生转变,未来应用、算法与体系结构应协同设计,通过多学科交叉找到计算、存储、通信的平衡,从模型和算法一起提高应用程序的性能,才能更好的解决“大”问题。

范东睿研究员从芯片设计研究工作出发,指出处理器架构的演进过程就是逐步提高片上计算资源管理效率的过程,未来可能的发展方向有两个,其一是通过数据流技术提升处理器架构能效,其二是通过超导器件提升芯片能效。

1509411666229314.jpg

刘杰研究员结合多年参加国产超算系统研制的经验指出,系统设计应走在应用前面,从广度(解决可扩展性问题)和深度(并行算法+优化算法+数据结构+程序设计)两个角度进行优化。他认为未来E级计算的计算机的主流架构应该仍然采用异构系统。

陈德训高工回顾了神威系列国产超算芯片的发展历史,从2002年的单核,到2006年的多核,再到2012年诞生的第一代众核处理器,神威系列超算所使用的自主芯片在十年中取得了令人瞩目的大幅进步,不断缩小与国际一流厂商芯片的差距,但同时面临着机器越来越难使用的问题。目前简化编程的一个主要方式是提供OpenACC编译环境供用户快速并行化应用程序,但仍然存在较大的应用局限性,很多追求极致性能的应用仍然需要进一步的手工调优。未来可考虑将相关手工调优技术固化成中间件,提供简单易用的接口供用户调用。此外,国产处理器的软件生态环境较弱,急需国家支持。

 1509411688427677.jpg

在随后的提问环节中,现场听众踊跃发言,问题范围涉及体系结构、编程模型的发展,未来应用性能优化的挑战,以及超算人才的培养等等,五位嘉宾针对这些问题,进行了精彩的发言,阐述了自己的观点,引发了大家热烈的讨论。

1509411720653355.jpg

1509411720625443.jpg

1509411721437732.jpg

总结

本届高性能计算中间件技术研讨会围绕“性能优化”这一主题,设置了11个邀请报告和Panel主题讨论。邀请报告内容丰富精彩,Panel讨论妙语连珠、讨论热烈,为国内高性能计算中间件领域的专家和同行提供了一个探讨技术、分享成果的平台,促进了国内中间件技术的交流与合作,取得了良好效果,大家期待明年相聚青岛。

 

撰稿:游春光、张鹏、张宏婷

摄像:方红杰