公共文化服务平台

并行作业启动及其可扩展性分析被引量：1: 2013年; 随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能.进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较.; 曹宏嘉卢宇彤谢旻周恩强; 关键词：进程管理 MPI 可扩展性

对象存储并行文件系统小文件性能优化研究被引量：2: 2013年; 对象存储并行文件系统在高性能计算领域被广泛采用,虽然大文件访问性能优异,但其小文件访问存在局限性。通过分析典型对象存储并行文件系统下的小文件的访问开销,采用服务端小文件专用缓存和基于对象命名关联性预取的方法提高小文件的缓存命中率,降低对象存储架构下小文件的读取延迟。基于Lustre并行文件系统实现了该方法。实际系统测试表明,该方法可显著提高小文件访问性能,其中小文件打包性能提升最大可达88%。; 周恩强董勇张伟卢宇彤; 关键词：并行文件系统缓存

MDSLB:A new static load balancing method for parallel molecular dynamics simulations被引量：1: 2014年; Large-scale parallelization of molecular dynamics simulations is facing challenges which seriously affect the simula- tion efficiency, among which the load imbalance problem is the most critical. In this paper, we propose, a new molecular dynamics static load balancing method （MDSLB）. By analyzing the characteristics of the short-range force of molecular dynamics programs running in parallel, we divide the short-range force into three kinds of force models, and then pack- age the computations of each force model into many tiny computational units called ＂cell loads＂, which provide the basic data structures for our load balancing method. In MDSLB, the spatial region is separated into sub-regions called ＂local domains＂, and the cell loads of each local domain are allocated to every processor in turn. Compared with the dynamic load balancing method, MDSLB can guarantee load balance by executing the algorithm only once at program startup without migrating the loads dynamically. We implement MDSLB in OpenFOAM software and test it on TianHe-lA supercomputer with 16 to 512 processors. Experimental results show that MDSLB can save 34%-64% time for the load imbalanced cases.; 武云龙徐新海杨学军邹顺任小广

多准则赋权排序与C-SVM相结合的特征选择算法被引量：6: 2018年; 数据挖掘中所获取的数据维数多,常常导致数据存储所需容量大,知识挖掘所需时间长,预测正确率不高等问题,特征选择是解决上述问题的重要方法之一。针对现有特征选择算法最佳特征个数难以确定及分类准确率有待进一步提高等问题,提出一种同时考虑相关性和冗余度的多准则赋权排序的算法(m CRC),m CRC结合两种准则同时对特征进行排序,并利用C-SVM对按重要性降序排好的特征采用顺序前向浮动搜索得出最佳特征子集。实验结果表明,m CRC算法与单独基于互信息或类别可分性赋权排序的特征选择方法相比能在更短的时间内获得分类性能更好的最佳特征子集,为快速并高效地对数据集进行挖掘提供了有力保障。; 孙勤孙勤蒋艳凰胡维张毅

面向异构体系结构的GA模型拓展被引量：1: 2017年; 科学与工程应用对计算性能要求的不断增加使得异构计算得到了迅速发展,然而CPU与加速单元之间没有共享内存的特点增加了异构编程难度,编程人员必须显式地指定数据在不同设备之间的传递情况.全局数组(global arrays,GA)模型基于聚合远程内存拷贝接口(ARMCI)为分布式存储系统提供异步单边通信、共享内存的编程环境,但ARMCI接口拓展的复杂性使得GA不能根据特定计算平台的特点迅速在该平台上实现.CoGA模型是对GA模型的异构拓展,旨在为CPU+英特尔至强融核(MIC)的异构系统提供全局数组结构,隐藏数据传输细节从而简化异构编程难度.CoGA基于MIC上的对称传输接口(SCIF)实现对CPU和MIC的内存管理,并结合SCIF远程内存访问特点优化CPU与MIC间的数据传输性能.最后,通过数据传输带宽、通信延迟和稀疏矩阵乘问题的测试,证明了CoGA简化编程并优化数据传输性能的有效性和实用性.; 程鹏卢宇彤高涛王晨旭; 关键词：异构计算编程模型

Storage wall for exascale supercomputing被引量：3: 2016年; The mismatch between compute performance and I/O performance has long been a stumbling block as supercomputers evolve from petaflops to exaflops. Currently, many parallel applications are I/O intensive,and their overall running times are typically limited by I/O performance. To quantify the I/O performance bottleneck and highlight the significance of achieving scalable performance in peta/exascale supercomputing, in this paper, we introduce for the first time a formal definition of the ‘storage wall' from the perspective of parallel application scalability. We quantify the effects of the storage bottleneck by providing a storage-bounded speedup,defining the storage wall quantitatively, presenting existence theorems for the storage wall, and classifying the system architectures depending on I/O performance variation. We analyze and extrapolate the existence of the storage wall by experiments on Tianhe-1A and case studies on Jaguar. These results provide insights on how to alleviate the storage wall bottleneck in system design and achieve hardware/software optimizations in peta/exascale supercomputing.; Wei HUGuang-ming LIUQiong LIYan-huang JIANGGui-lin CAI

基于天河2高速互连网络实现混合层次文件系统H^2FS高速通信被引量：8: 2017年; 高效通信性能是影响并行文件系统性能与效率的重要因素.该文基于TH-2系统的高性能互连网络——天河2高速互连网络(TH-Express 2),设计并实现了混合层次文件系统H^2FS中的高速通信模块FSE.FSE采用了TH-Express 2的短报文通信MP和远程内存访问RDMA相结合的方式,实现客户端与ION的通信.FSE采用基于动态链表的内存注册池减少通信延迟,提高通信效率.基于可变信用的流量控制,FSE有效降低系统出现拥塞的可能性,提高系统的可扩展性和稳定性.为了充分利用多核处理器的并发处理能力以及多RDMA引擎的传输能力,FSE对报文传输和数据处理功能采用了多维多线程方式,提高数据访问带宽.FSE的自适应端点管理针对通信端点容错能力设计,提高了系统弹性,有助于增强系统稳定性.FSE实现优化了数据传输效率,实现了低延迟、高带宽、高可扩展数据访问.在两个不同实际系统上的测试结果表明,FSE可以充分发掘TH-Express 2的特性,点点数据访问带宽可达8.6Gbps,使得H^2FS具有较高的数据访问带宽和元数据性能,并具有良好的可扩展性.同基于TCP的通信模块实现相比,FSE的读写延迟可低至55%和20%,最大单ION写性能是其3.3倍;同Lustre文件系统相比,FSE更好地利用了高速网的特性来获取较高性能,写延迟可低至其28.6%.; 董勇周恩强卢宇彤张伟; 关键词：FSE

面向分层混合存储架构的协同式突发缓冲技术被引量：3: 2015年; 科学计算产生和分析的数据规模日益增长,高性能计算机的存储系统在体系架构和软件管理方法上面临重大挑战。针对天河-2系统的新型分层混合存储架构,提出一种由应用程序耦合的协同式突发缓冲技术来有效利用其存储资源优势。该方法采用运行时动态耦合的方法,将临近计算任务的分布式高速存储资源聚合成为一个的巨大的协同式突发缓冲区,通过采用文件命名空间投影的映射方法组织全局数据视图,利用位置亲和和感知数据意图的方法来挖掘空间局部性和时间局部性,并利用应用并发度感知的策略优化数据移动效率。天河-2系统的测试结果表明,该方法能够有效优化多种典型应用场景,可获得高可扩展的突发并行输出带宽和稳定的持续并行输出带宽,可显著提升数据分析场景的输入/输出性能,适合应用于大规模超级计算机的存储系统。; 周恩强张伟董勇卢宇彤; 关键词：超级计算机存储架构并行文件系统

基于纠删码的云文件系统数据放置方法被引量：1: 2014年; 当前,在分布式云文件系统中,纠删码冗余技术以较高的容错性能和较大的空间利用率逐步取代副本冗余技术来保证数据的可靠性。多数基于纠删码的云文件系统中,数据放置方法采用随机放置策略并假设集群节点同构,然而在实际的云存储系统中节点的同构性并不理想,且节点的存储性能会随着系统的运行动态地发生变化,所以随机地选取节点进行数据放置并不能有效地保证系统的均衡性。为此,文中分析确定了影响节点负载性能的关键因素,并采用层次分析法建模求出不同存储数据类型的负载影响因子。同时基于节点负载性能,计算提出了一种全局随机、局部顺序的数据放置算法,该算法在选择节点的过程中综合考虑节点内的实时负载均衡和数据可靠性两个因素。实验结果显示,相比于随机放置方法,提出的该数据放置方法不仅能够实现存储系统节点内的实时负载均衡,还能加快数据写入和恢复的速度。; 李佳陈海涛芦伟; 关键词：数据放置纠删码负载均衡

并行计算机中基于令牌的许可证管理: 2014年; 提出一种适用于并行计算机系统的基于令牌的许可证管理模型。该模型将软件许可证的使用显式分开为申请与检出两步,许可证的释放分开为检入和回收两步,并由资源管理系统代理软件进行许可证资源的申请和回收。在此模型中,软件许可证的使用将由资源管理系统完全控制与调度,避免了现有模型中存在的资源管理系统外作业使用许可证、作业错误指定许可证信息、应用进程残留等情景下,出现用户作业因许可证不可用而造成的运行失败或资源浪费。设计了两种在现存遗留应用软件和许可证管理软件上实现基于令牌的许可证管理模型的方法,充分表明了此模型的现实意义。; 曹宏嘉卢宇彤; 关键词：资源管理作业调度许可证管理令牌

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61120106005)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61120106005)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈