HPCMid-2017

首页 > HPCMid > HPCMid-2017 > 邀请报告

邀请报告

敖玉龙，中国科学院软件研究所，助理研究员

主要从事国产众核超算平台上开展稀疏矩阵运算和stencil计算相关并行和优化等方面的研究。

报告题目：神威•太湖之光上stencil计算的并行与优化

报告摘要：在科学和工程计算领域的众多应用中，stencil计算对大规模模拟的性能起到关键作用。但由于其不规则访存以及计算空间依赖等性质，在高计算吞吐和低数据移动的现代超级计算机上进行优化充满挑战。本报告主要介绍在超级计算机神威•太湖之光上针对大气模拟和爆炸模拟领域中两类不同stencil格式的研究工作。基于国产体系架构和stencil计算特征，本报告分别从并行方案，数据局部性，以及片上多计算核心的协助等方面提出了相应的并行和优化技术。最终两类stencil计算都成功扩展至整机，获得了26PFLOPS和23PFLOPS的双精度浮点性能，并相对于主核版本，分别获得了170倍和108倍的加速比。

曹轶.jpg

曹轶，北京应用物理与计算数学研究所，副研究员

长期致力于国家典型重大应用领域的科学、工程数据可视化技术研究以及定制软件研制工作。目前主要研究方向为：科学计算可视化、大规模并行与硬件加速技术、百亿亿次高效能实现技术。作为项目负责人承担国家军口973项目、民口863项目、国防基础科研计划项目等多项国家重大研究项目，在国内外学术刊物发表学术论文约20余篇，获军队进步二等奖一次，省（部）级二等奖一次，软件著作权三项。

报告题目：大规模科学与工程计算中的数据可视化

报告摘要：数据可视化可以帮助领域专家深入理解具有复杂时空维度的数据集，探寻数据蕴含的规律。当前，随着国产计算机峰值性能的不断快速提升，科学与工程计算中的实际复杂应用已经变为可以求解，但随之产生的大规模时变复杂数据集则不断带来新的可视化挑战。本报告将介绍若干典型大规模科学与工程计算问题及可视化实际应用，并围绕这些典型应用讨论科学数据可视化所面临的挑战性问题。

3 陈建军.jpg

陈建军，浙江大学，教授

长期从事计算科学与工程研究，在网格生成基础理论和自主知识产权计算力学软件研发方面取得重要成果，成功应用成果于国家重大科技工程与多个工业院所。发表SCI/EI论文40余篇，被他引200余次。中文专著由科学出版社出版；英文专著已交付剑桥大学出版社出版。主持省杰出青年科学基金1项，国家自然科学基金共4项。获省科技进步一等奖、国际华人计算力学学会优秀青年学者奖以及国际网格生成圆桌会议最佳网格生成方案奖。现任国际华人计算力学学会常务理事、中国计算力学专业委员会计算力学软件专业组成员、中国工业软件联盟CAE分联盟第一届专家委员会委员。

报告题目：朝向E级计算的大规模网格并行与自动生成方法与软件

报告摘要：按照规划，预计2020年我国可实现E级计算机系统。依托快速发展的超级计算能力实现重大科学与工程问题的真实、高精度数值模拟是迫切需求，也面临诸多挑战性难题，高质量、大规模计算网格的并行与自动生成是其中难题之一。报告人面向航空航天数值模拟等领域的实际需求，长期从事相关网格生成和数值计算方法的研究和自主知识产权软件系统的研发。本报告将围绕报告人主持研发的全过程自动、全过程并行网格生成方法和软件，重点介绍其中若干关键问题上的研究进展，如单元尺寸场自动生成理论和算法，大规模网格的多级并行生成与动态重构方法，基于边界元法的边界层网格生成新方法等，并给出若干实际应用例子，展示方法与软件的有效性。

陈一，北京大学，研究员

北京大学信息学院计算机系副系主任，博士生导师，研究领域为多核与众核并行程序语言，开发了PARRAY并行编程工具，支持多种新兴系统结构的统一编程风格，并在国产超级计算机上进行大规模直接数值法湍流模拟示范应用和开展大数据平台系统软件方面的研究。发表文章45篇，申请3项专利，作为第一作者在ACM TOPLAS，TCS，Acta Informatica.等杂志和CONCUR, CSL, FM,MPC, ACM ICS, ACM PPoPP等会议发表论文。担任多个国际会议程序委员包括IPDPS’12’14, SC’12，ACM PPoPP’13’15，CCrid’14-16和PLDI’15 ERC。

报告题目：高性能计算中间件的设计与性能优化

报告摘要：设计针对高性能计算（包括科学计算与大数据分析）的编程模型与中间件编程接口需要平衡可编程性与性能优化。本报告将从几个方面介绍此类设计的核心挑战、难点与解决思路。

5 崔涛.jpg

崔涛，中国科学院数学与系统科学研究院，副研究员

2010年获中国科学院数学与系统科学研究院理学博士学位，2016年受“陈景润未来之星”特优人才计划资助。2011年和2014年先后访问美国佛罗里达州立大学和美国密歇根州立大学。在高性能电磁场计算以及数据建模等领域拥有多年研究经验，承担及参与国家重点研发计划项目、973计划项目、863计划项目及国家自然科学基金等多个项目。在集成电路参数提取问题数值模拟、近场光学以及并行自适应有限元软件平台研制方面取得了显著的成果。在Numer. Math.、SIAM J. Sci. Computing、JCP等杂志上发表论文20余篇，其中SCI、EI检索十余篇。

报告题目：PHG、工具及应用

报告摘要：PHG是正在发展的专门为三维自适应有限元设计的并行程序开发平台。本报告将首先介绍PHG的一些进展；其次介绍我们基于PHG研发的大规模集成电路互连线参数提取和热力分析软件包的工作，包括提出了一种场与电路耦合的涡流模型、高效预条件子以及自适应计算策略；最后，我们将介绍利用符号计算和实时编译技术提高有限元单元刚度矩阵计算模块的编程便利性和程序效率的初步研究成果。

何鑫.jpg

何鑫，中国科学院计算技术研究所，副研究员

2012年于瑞典乌普萨拉大学信息技术学院获得科学计算专业博士学位。2012年--2016年在荷兰代尔夫特理工大学应用数学系做博士后研究，同时于荷兰海事研究院研发部做访问研究员。2017年加入中科院计算技术研究所高性能计算机研究中心任副研究员，并获中科院“百人计划”青年俊才（C类）人才项目支持。主要从事数值分析、高性能计算、计算流体力学方向的研究工作。在SIAM Scientific Computing, Journal of Numerical Mathematics, BIT, Journal of Computational Mathematics等期刊上发表十篇论文。

报告题目：基于标准化编程接口的解法器实现平台介绍

报告摘要：WPI（Workload Programing Interface）是一个平台化，标准化和高效能的数值解法器实现平台。WPI将解法器分解为接口层、算法层、运算层。其中接口层面向软件开发者提供多种解法器接口；运算层则作为WPI的底层核心引擎，提供了各种与处理器平台耦合并深度优化的基础代数运算接口和自动调优组件，由WPI的开发者维护；算法层介于运算层与接口层之间，提供解法器的次级算法实现，可由用户基于运算层接口自定义编写。三个层次的接口实现了用户到处理器平台的平滑过渡，从而为应用软件的开发者提供了高效的跨处理器编程平台。

李胜国.jpg

李胜国，国防科技大学，助理研究员

从事并行程序设计与优化方面的工作。2006年和2013年于国防科技大学分别获得理学学士和理学博士学位，研究内容为数值代数算法及其应用，先后获得湖南省优秀硕士论文和全军优秀博士论文奖。在 SIAM J. Sci. Comput., SIAM J. Matrix Anal. Appl., Numer. Math., Numer. Linear Algebra Appl.等期刊上发表多篇论文。

报告题目：基于秩结构矩阵的求解特征值问题的快速并行算法

报告摘要：本报告将介绍一种基于秩结构矩阵加速的求解矩阵特征值分解的快速算法，可适用于三对角或带状矩阵、多核或分布式并行情形。与LAPACK和ScaLAPACK中的相应算法相比，改进后的算法可获得数倍到数十倍的加速比。针对计算资源众多的超级计算机，介绍几种适于分布式并行的新型特征值或奇异值算法。

刘伟峰.jpg

刘伟峰，挪威科技大学研究科学家，欧盟玛丽居里学者

2002年和2006年于中国石油大学（北京）计算机科学与技术系获学士与硕士学位。2006年至2012年在中国石化石油勘探开发研究院历任助理工程师、工程师和高级研究师，其间主要研究领域为石油地球物理勘探的高性能算法。2016年于丹麦哥本哈根大学获计算科学博士学位，并于英国卢瑟福阿普尔顿实验室短暂从事博士后研究，目前主要研究兴趣为众核处理器上的稀疏矩阵并行算法与软件。

报告题目：探索与分析高带宽封装内存对科学程序的实际影响

报告摘要：高带宽封装内存（high-bandwidth on-package memory）在片上cache和片外主存之间添加了一个新的存储层次。它可以作为最后一层cache或更快的片外主存使用。其容量一方面大于片上cache两至三个数量级，同时又可能远小于片外主存。本报告将探索与分析几个有代表性的科学程序（包括两个稠密矩阵计算核心GEMM和Cholesky，三个稀疏矩阵计算核心SpTRANS、SpMV和SpTRSV，以及FFT和Stencil）在两个配备高带宽封装内存的处理器（包括配备128 MB eDRAM的Intel Broadwell CPU和配备16 GB MCDRAM的Intel Knights Landing Xeon Phi）上的性能与能耗变化。本报告还将讨论针对高带宽封装内存的性能调优，以及为此提出的一个名为Stepping的性能模型。

杨博.jpg

杨博，北京应用物理与计算数学研究所，博士后

主要研究方向为高性能计算、并行计算与并行算法。2015年于国防科技大学获计算机科学与技术博士学位，期间主要研究面向CPU/GPU异构计算平台的大规模图数据处理算法与性能优化。2016年至今于北京应用物理与计算数学研究所从事博士后工作，目前研究领域为基于网格数据结构的数值计算中的stencil计算访存性能建模。

报告题目：A Queuing Theory-based Modelling for Memory Performance of Stencil Computation

报告摘要：Stencil computations are the core of many important scientific computing applications on block-structured grids. Previous studies have suggested several stencil optimization methods to significantly improve the spatial and temporal locality. However, the prediction of the performance of stencil and the performance impact of stencil optimizations is difficult, due to the complexity of hardware architecture, especially the memory subsystem. Existing statistical performance models for stencil computation can accurately predict program performance on multiprocessors but rarely provide insight into optimization and can be difficult to use by nonexperts. The insightful analytical models, by contrast, are of limited prediction accuracy, due to their inaccurate fundamental assumptions about data transfer in memory subsystem. We propose a queuing theory based analytical model for low order stencil schemes, which can accurately depict concurrent data transfer among memory hierarchy and predict the performance of 2D/3D stencil computations. Our model uses the little's law to describe relationship between latency, concurrency and bandwidth of memory access. We use the model to quantitative analysis of the performance impact of the blocking optimization method and determine optimum parameters of the optimization. Results demonstrate that the predictions precision of our model is reliable and the prediction errors ranges between 5% to 10% on intel CPU architectures. Furthermore, our model can effectively guide to optimization of stencil computation.

袁良.png

袁良，中国科学院计算技术研究所，助理研究员

主要研究方向为并行计算模型、并行算法设计和并行程序优化。2013年博士毕业于中国科学院软件研究所，同年加入中国科学院计算技术研究所计算机体系结构国家重点实验室，任并行软件组助理研究员，发表论文10余篇，专著一本，国家授权专利一项。

报告题目：Tessellating Stencils

报告摘要：Stencil computations represent a very common class of nested loops in scientic and engineering applications. The exhaustively studied tiling is one of the most powerful transformation techniques to explore the data locality and parallelism. Unlike previous work, which mostly blocks the iteration space of a stencil directly, we propose a novel two-level tessellation scheme. A set of blocks are designed to tessellate the spatial space in various ways. The blocks can be processed in parallel without redundant computation. This corresponds to extending them along the time dimension and can form a tessellation of the iteration space. Experimental results show that our code performs up to 12% better than the existing highly concurrent schemes for the 3d27p stencil.

11赵勋旺.jpg

赵勋旺，西安电子科技大学，副教授

2008.12-2009.4，在美国Syracuse大学作访问学者。专注于矩量法及其快速算法、高性能电磁计算方面的研究工作。在IEEE TAP、APM、AWPL等国际权威期刊和会议发表SCI检索论文20余篇，合作出版中英文著作2部。近五年主持973计划专题、国家自然科学基金等7项科研项目。作为第二完成人完成了863计划重大课题“复杂电磁环境数值模拟”，实现了国际上并行规模领先的电磁算法。研发了大规模并行电磁仿真软件系统，已应用于中国电科集团、航天科工集团等26个科研机构。

报告题目：基于截断树的并行多层快速多极子方法

报告摘要：多层快速多极子方法（MLFMA）广泛应用于电磁散射与辐射问题的模拟。在三维高频电磁问题中，该方法使用八叉树对基函数进行空域分组，同时利用插值算法实现各层之间的谱域聚合。因为八叉树高层的分组数很少，通常少于进程数，所以空域划分并行策略在高层会导致负载不均衡，存在严重的可扩展瓶颈。为了解决该瓶颈问题，我们将八叉树高层截断以产生足够多的子树，接着把这些子树均匀分配到各进程，以提高负载均衡。然后，采用快速远场近似方法实现远区子树间转移过程的通信消除。由于通信主要发生在相邻处理器之间，该策略显著减少了通信延时，有效提高了算法可扩展性。与传统空域和谱域相结合的并行策略相比，基于截断树的方法更加容易实现，并且具有良好的可扩展性。