【如需代写发表论文请您联系我们】您当前的位置:博学论文网 > 计算机论文 >

曙光高性能计算机在天气预报中的运用

添加时间:2014-08-30

  1、引言

  高性能计算(high performance compute,HPC)是一个计算机集群系统,它通常使用很多处理器或某一集群组织中的多台计算机来处理大型计算问题。随着社会经济的发展,高性能计算机的应用越来越广,尤其是在气象服务中的应用呈现阶梯型递增。近年来,气象服务转化为社会经济能源的比重越来越大,同时不断完善的社会建设和精神文明建设不断增强的公众对气象预报和服务提出了更高的要求,精细化的气象服务显得尤为重要,因此提供更加丰富多样的气象服务产品以及新的气象模式的开发对于计算机硬件条件也提出了更好的要求,由于数值模式具有的计算规模巨大、高精度等普遍性特点,使得高性能计算机成为了现代气象研究的中流砥柱。对数值天气预报,要进一步提高预报的准确性,当前必须减小计算格点距离(提高分辨率)和使物理过程复杂化,前者格距减小计算量成几何级数增加,后者计算量也随之增加,其计算量级占总体的计算量 30~50%。无论是短期天气预报还是长期气候预测,都离不开强大的高性能计算资源的支持。

  2、暴雨所 HPC 发展现状

  2.1、科研业务应用

  中国气象局武汉暴雨研究所瞄准暴雨防灾减灾的国家目标和气象业务服务需求,开展中国暴雨的应用基础研究、应用研究和技术开发等工作。其研究重点是我国陆地暴雨,同时开展我国西南山地暴雨和北方暴雨的比较研究,优势发展领域为暴雨监测预警技术研究、暴雨形成机理和预测方法研究、中尺度区域暴雨数值预报技术研究、水文气象耦合的流域洪水预报模型与方法研究等,同时集中力量开展中尺度暴雨外场监测试验基地建设和中国暴雨(资料)数据库建设。

  在天气业务模式运行中,气象预报模式对浮点计算量要求巨大,中国气象局武汉暴雨研究基地所采用的中尺度气象预报模式(如 AREM、MM5、WRF 和 GRAPES)有着惊人的计算量,同时由于气象预报的特点决定了其极高的实时性,要求模式必须在指定的时间内完成运算(要求 1 小时)。同时预报精度提高一倍,其所需计算量将提高 16 倍。在新系统的规划中,中国气象局武汉暴雨研究所将提供三个模式(AREM、WRF 和 GRAPES)同时进行高分辨率中尺度数值天气预报,业务预报的时效性要求三个模式的预报计算都必须在每天 8 个小时,即每3 个小时一次,每个时段 1 个小时内完成,所以仅业务模式预报中的计算量就是目前在微机上计算模式的 2000 倍左右。

  2.2、HPC 系统架构

  基于高性能、可扩展、高可靠和易管理设计原则,将升级后的 HPC 系统分为业务区和科研区两部分。业务区采用目前主流的 64 位 X86 服务器构建的集群处理方案组建高可用集群系统,目前 X86 服务器称为超级计算机系统的重要组成。曙光高性能计算机不仅可以很好的满足数值模式高性能和高稳定性的要求,同时集群架构相比于传统的 NUMA 或者 RISC SMP大型机具有更高的性价比。

  采用资源分区的方式,利用设置不同账户权限使科研系统与业务系统逻辑上分开,互不影响,既满足了对外服务的实时业务运行和对内科研及开发需求,又充分考虑了科研业务运行的安全性和可靠性的设计原则。

  2.3、HPC系统组成

  中国气象局武汉暴雨研究所的业务和科研需求,对高性能计算机在各个方面提出了较高的要求。

  2.3.1、文件系统

  众多的气象模式以及科研需求使得系统对于文件系统有着很高的要求,除了要求能够满足大容量和可扩展性以外,高性能、高 I/O 聚合带宽、高 IOPS 成为气象业务对文件系统的基本要求。因此,此项目推荐使用业界最先进的曙光并行存储系统 ParaStor,ParaStor 具有 I/O 带宽高、扩展性强、每秒并发数 IOPS 高,支持业界最先进的高速互联网络、性能高等特点,完全能够满足业务运行和科研需求。

  2.3.2、网络系统

  由于预报模式一般都采用有限差分格点模式并行计算,同时在计算过程中各个 CPU 之间的通讯量很大,因此模式对通讯的性能要求非常高,所以要求高性能计算机提供高性能安全的通讯网络,目前随着多核技术的发展,在网络上必须有单向 40Gb,延迟低于 1.2μs 的高性能计算网络与之相匹配。另外,全系统共设计三套互联网络:

  1)高速 Infiniband 主干网络(高速计算、存储网):单向 40Gb/s QDR Infiniband,全线速无阻塞,全部 34 个节点全线速互联;用于高效能科学计算、超大规模科学计算,全局共享的高速数据网络。

  2)千兆管理以太网:计算节点、管理节点、存储节点千兆互联,全线速无阻塞,用于系统管理,操作系统、数据下载等。

  3)系统监控管理网络:通过 INTEL82574 千兆自适应管理网口,提供符合 IPMI2.0 标准的管理功能,并提供远程 iKVM 功能;用于系统监控、管理。

  2.3.3、存储备份系统

  采用曙光 ParaStor 并行存储系统接入业务系统和科研系统。存储容量统计:其中数值模式对存储的性能要求较高,建议采用目前主流的 FC 光纤磁盘阵列,存储裸容量 60.4TB(20.4TB,采用 34 块 15KRPM FC 接口光纤磁盘;40TB,采用 20 块 SATA 磁盘),该磁盘阵列支持 SATA 和 FC-AL 高速磁盘混插,既可以满足项目初期使用要求,又可以实现未来几年内大量数据备份的需求。

  备份系统支持 FC、SATA 硬盘,最大支持 112 块硬盘,最大容量为 224T;软件功能支持硬盘混插,分级存储;支持负载均衡,路径冗余;支持快照;支持卷拷贝,远程卷镜像。

  2.3.4、系统组成

  采用 SMP 架构,全局共享内存,采用 4 颗 AMD 最新的 2.2GHz 主频 Opteron 6174 十二核处理器(共计 48 核心),12M L3 Cache,48G/96G 的全局内存,每节点可实现 422.4Gflops浮点计算能力。全系统采用 27 台 SMP 系统服务器(其中 14 台为大内存节点,内存容量为 96G,用于业务运行,其余13台节点内存为48G,用于科研运行),构建计算节点系统,共采用108颗12CoreCPU,计算节点 CPU 可提供 11.40TFlops 的双精浮点计算能力;内存与 CPU 之间采用直连架构,消除内存访问的延迟与瓶颈。

  全系统采用 4 台曙光高性能 A620r-G 双路服务器构建 I/O 存储节点系统,每节点配置两颗 AMD Opteron 6128 八核 CPU(2.0GHz,共 16 核心),每节点配置 16GBDDRIII ECC 内存。内存与 CPU 之间采用直连架构,消除内存访问的延迟与瓶颈。全系统配置 2 台曙光高性能 A620r-H 双路服务器构建登录和管理节点系统,节点配置两颗 AMD Opteron 2431 六核 CPU(2.4GHz,共 12 核心),每节点配置 12GB DDRII ECC 内存。内存与 CPU 之间采用直连架构,消除内存访问的延迟与瓶颈。全系统配置 1 台曙光 Clusnap Checkpoint 控制器,带有一块 16G 断点(Checkpoint)高速缓存卡(曙光 SysCache 卡)用于 Checkpoint 时的高性能非易失性写缓存。配置断点存储容量为 4TB,实现企业级的 Checkpoint/Restart,提供 Web 方式作业与调度系统相结合,可应用于气象行业所有的串行、多线程、以及 MPI 应用,完全响应招标要求。

  3、数值预报模式中 HPC 性能分析

  3.1、WRF模式介绍

  Weather Research and Forecasting Model(WRF) 被誉为是次世代的中尺度天气预报模式,在WRF之前世界各地气象研究机构开发出各自的相对独立的气象模式,这些模式间缺乏互换性,对科研及业务交流极为不便。美国环境监测中心(NCEP),美国国家大气研究中心(NCAR)等美国科研机构为此开发了一种统一的气象模式,即为WRF,WRF分为ARW(The AdvancedResearch WRF)和NMM(The Nonhydrostatic Mesoscale Model),即为研究和业务两种形式,分别由NCEP和NCAR管理维持。WRF采用F90语言编写,代码采用分布式、共享式和分布式共享多种并行编程规范。WRF模式不仅可以用于真实天气的个案模拟,也可以用其包含的模块组作为基本物理过程探讨的理论根据,为气象业务和研究机构中常用模式。

  3.2、测试环境

  测试选取的测试用例中wrf为暴雨所实际应用测试用例,预报72小时,一层格点481*461,格距3km,步长20s,垂直分层37层,测试分别采用AMD与Intel最新处理器,测试环境分别选取最新的pgi10与intel11编译器测试。

  4、结束语

  暴雨所曙光高性能计算机系统上运行着不同的气象数值预报业务,为精细化气象服务产品提供强有力的后台运行保障,但仍存在不足之处有待改进:

  1)系统管理的规范化、制度化和自动化。由于异构系统资源分散以及调度管理的不统一性导致计算机整体性能得不到充足的实现;运行在各计算机系统上的科研业务作业提交也没有统一的规范,无法实现作业的自动提交,导致计算机资源的浪费以及由于人为原因造成的系统故障;高性能计算机作业用户操作的不规范性,导致大量计算结果滞留在服务器内,导致资源紧张从而影响整个系统的作业运行。

  2)系统的可扩展性。随着数值预报业务对高性能计算能力的不断需求,现有机器的计算能力越显不足,可以通过增加节点来满足相应需求,但是节点的增加相应节点之间的通信增强,对模式运行速度的提升有限,因此对模式自身的优化显得尤为重要,例如将模式系统的后处理串行执行模块进行相应的网格并行化优化,从而缩短运行时间,提升运行效率。

服务介绍
【论文写作介绍】凡是本站加盟写手老师,均为全国知名高校硕士、博士以及在校教授,您将要求发给我们,我们立即会安排相应专业老师对您的论文要求进行严格、认真的分析,并在48小时之内,为您定制出若干个题目,任您挑选,挑选符合,老师将对您的论文进行整体写作。
【论文发表介绍】在收到您的QQ、电话、邮箱后,将对您的论文进行严格的审核,如您未有决定发表期刊,则本站将根据您的论文质量,以及相关专业进行期刊推荐,您挑选好期刊后,我站将安排发表。
【为什么相信我们】我们视信誉为生命,我们的全职工作就是为论文需求者服务,我站成立论文行业数十年,服务客户上万名,每位客户的要求我们都尽力完成,不能写的论文我们绝对不接,能接的论文我们一定会努力完成,客户的满意是我们的目标。
联系我们
  • 代写QQ: 23721259
  • 发表QQ: 23726208
  • 咨询电话:18930620780
  • 固定电话:021-58510201
  • E-mail:lunwen021@163.com
热点论文
本站专注于提供各种论文代写、论文发表服务 联系QQ:23721259 23726208 咨询电话:18930620780 邮箱:lunwen021@163.com
【免责声明】:本网站所提供的信息资源如有侵权、违规,请及时告知