当前位置: 首页
> 节能宣传周
【绿色低碳公共机构】山东省计算中心(国家超级计算济南中心)
发布日期: 2024-05-17 09:06

一、基本情况

国家超级计算济南中心(以下简称“济南超算”)由国家科技部批准成立,创建于2011年,是从事智能计算和信息处理技术研究及计算服务的综合性研究中心,也是我国首台完全采用自主处理器研制千万亿次超级计算机的诞生地。2011年济南超算建成国内首台完全用自主CPU构建的千万亿次超级计算机神威蓝光,实现了国家大型关键信息基础设施核心技术的“自主可控”目标;2018年建成神威E级计算原型机,首次实现了从核心器件的完全国产化,为国家科技创新的提供强有力的算力支撑。

济南超算充分发挥通用超算平台作用,先后建设包含超级计算机机房环境建设、高性能计算集群建设、智能计算集群建设、云计算集群建设,平台高性能计算峰值算力达近100PFlops(每秒6万万亿次双精度浮点运算),人工智能平台算力达1000Pops(每秒百亿亿次智能计算),存储容量200PB,综合算力处于国际前列。平台定位发展成为集算力服务、交叉研究和产业创新三位一体的重大科技基础设施和公共服务平台,直接服务于山东省大科学计划大科学工程,为区域科技创新、战略性新兴产业发展提供强有力的支撑作用,并将在超算生态建设中发挥重要作用,同时可为各领域科技创新带来重大机遇,加快形成山东“大超算”格局,逐步成为新旧动能转换战略的重要抓手和推进综合性国家科学中心建设的战略支点。

二、重点方向

近年来,国家高度重视新型绿色数据中心产业的发展,“十四五”规划和2035年远景目标纲要中明确提出要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设E级和10E级超级计算中心”。工业和信息化部、国家发展和改革委员会等先后出台《新型数据中心发展三年行动计划2021-2023年》、《全国一体化大数据中心协同创新体系算力枢纽实施方案》等重要政策文件,有效规范了数据中心产业发展。当前,数据中心产业的发展已步入新阶段,数据中心规模稳步提升,低碳高质、协同发展的格局正在逐步形成。

(一)积极与高校、科研院所等单位合作,探索产学研合作的节能降耗新模式。超算中心制定了相关的管理标准体系规范,成立了黄河战略研究团队和智能运维团队、安全运营团队,积极与国家环保总站、济南市发改委、深圳金马、历控能源等单位合作,打造产学研用的新型合作模式。济南超算作为主要参与单位发起设立“超级计算创新联盟基础设施工作组”,对超算中心的数据中心设计要求、节能低碳尤其是余热回收等方面开展研究;与济南市发改委、深圳金马公司合作推动基于AI的数据中心配套设施的弹性调度,借助于新一代信息技术实现数据中心的节能降耗。

(二)开展异地异域算网一体化建设,深度推动“东数西算”工程,逐步提高西部地区能源损耗量。国家超级计算济南中心2022年建成覆盖山东16市的“山东算网”物理基础架构,突破了大规模RoCE组网及长距RDMA互联技术,建设了覆盖16地市的算力互联示范网。同时,济南超算先后获批国家科技创新2030、山东省重大科技创新工程等重大项目的支持,持续围绕超算互联网体系结构和组网建设、算网资源管理调度、算网标准体系建设、算网应用等方面开展研究工作,目前我们设计了算力生产、互联和配给的算网融合体系架构,提出了分层分类的跨域多元异构平台统一管理和多维感知的算网资源融合调度方法,实现了分布式计算、存储、网络的统一管理和协同调度。该超算互联网工程极大地降低了区域数据中心资源不均衡问题,同时提高资源的综合利用率,打通区域壁垒,布局全国一体化数据中心网络体系,打造面向山东省协同的 “算力网络”,整体上降低数据中心能耗强度,提高数据中心绿色发展水平,上线了国内首个超算互联网工程,申报山东省科技进步一等奖,已通过现场考察。

(三)开展数据中心运行动态感知平台项目建设,提高大型数据中心稳定运行效率和能耗利用率。1.基于互联网技术的动环检测系统。我单位申报的《基于物联网技术的数据中心动力环境监测系统所采用的方法》荣获中国专利奖优秀奖、山东省专利奖一等奖,该成果适应了数据中心监控管理系统向标准化、网络化发展的趋势,通过自主研发的物联网技术实现数据中心动力监控数据的采集和节能控制,进一步采用三维虚拟现实技术进行三维建模和数据的展示,彻底解决了数据中心大量信息数据的安全采集以及信息全面直观展示的问题,同时为数据中心节能降耗、建设绿色数据中心提供了技术支撑,同时通过三维云图反映的现场情况,可以调整机房的布局以及设备的运行状况,消除热点,节能降耗,本发明通过物联网技术,通过改变数据中心布局以及调节空调系统设定参数、消除局部热点等,普遍可以实现12%以上的节能。2.基于人工智能的动环环境检测技术。超算中心数十兆瓦级别的高能耗是制约数据中心高质量发展的关键,以高性能计算和智能计算作为典型的高功率密度设备,单机柜功率达数十千瓦。数据中心涉及的监控系统平台较多,然而各监控系统相对独立、分散,难以进行联合分析,无法满足数据中心整体化、综合化、协同化的使用需求,难以达到效率量化和分析评估,亦无法实现能耗优化及动态调整。

济南超算积极按照国家绿色数据中心的总体建设规划要求,与超级计算创新联盟(基础设施工作组)合作,同时在济南市发改委的指导下,采用高性能计算、大数据、人工智能等新一代信息技术,开展数据中心运行稳定动态监控、能耗实时监测和动态调整运行策略等关键技术研究,研建数据中心运行动态感知平台,通过发现运行效率低、运行状态和性能异常以及离群的参数或设备,为节能运行、故障定位和问题分析提供数据参考,为设备的预防性维护和平台配置的优化提供有价值的指导,降低综合应用能耗、提高资源的综合利用率。

当前济南超算已整合完成相关监控平台的数据对接工作,涉及主机、存储、网络、配电、制冷、安防、智能化等相关系统,已存储的数据总量约10TB,信息条数约1200亿,采用深度学习、机器学习等智能分析等算法,实现了一个动态感知的原型系统,发现了末端空调运行能效低、监测点设置错误、作业落库慢等现象,提高了空调运行能效、避免了作业调度服务故障的发生,在提高超算中心运行效率方面取得了一定的成效。

目前济南超算依托该动态感知平台,在进行能耗分解和能效分级工作,进一步开展山河超级计算平台制冷系统优化和运行策略,优化变压器和不间断电源等配电系统的运行策略以及补偿设备投切策略,本数据中心的PUE明显改善,能源站冷水机组COP效率平均值提升0.57,预计每年可节省电费约百万元,切实降低超算平台运营成本。

未来将不断完善该动态感知平台,使超算平台整体运行在高效、节能的状态,预防或减少重大故障的发生,降低故障的影响,为平台维护提供支持,为平台升级优化提供需求,引领数据中心绿色、低碳、高质量发展。

(四)推动余热回收降温循环系统建设,提高热能资源利用率。超级计算机的高速运转、长时间运行,产生了大量的热量,如何将余热回收和数据中心绿色发展协同研究是绿色数据中心建设运行过程中的一项重要研究课题。济南超算通用超级计算平台前期设计阶段已经考虑了热能回收再利用问题,在三个能源站的制冷水系统冷却侧均预留有进行余热回收的接口,通过回收数据中心大量主机系统产生的热量,提供冬季的供暖服务和夏季的民用热水及公建需求。

济南超算推动冬季计算机节能降温循环系统项目建设,通过水源热泵机组对冷却水进行降温,一方面替代数据机房冷却塔降温,制冷站每组闭式冷却塔额定循环水量990m³/h,风扇额定功率为55*3kW;降低冷却塔节运行电费约20万元/年。一方面设计取计算机冷却水侧余热21MW,采用3台离心式水源热泵机组,单台制热量为7500KW,理论供热量可达22.5MW,满负荷运行能供约25万㎡,全年供热可节约标煤2700吨,减排二氧化碳7010吨,减排二氧化硫22吨,减排氮氧化物19吨,减排粉尘37吨,相当于每年植树38.3万棵。

济南超算将继续深度推动超算中心余热回收系统的建设完善工作,在保障超算平台正常稳定运行的前提下,提高资源的综合利用,同时减轻了制冷系统负荷及其电能耗和水消耗,从而提高了超算平台的整体运行能效。