华中招标网旗下网站:河南招标信息网  湖北招标网  山东招标采购网  陕西招标信息网  设为首页 | 收藏本站  
 
首  页 工程招标 | 服务招标 | 货物招标 | 政府采购 | 项目信息 | 中标信息 | 政策法规 | 历史数据查询 公司简介 联系
搜索:                      点击此处跳转至按照标题搜索(即原搜索模式)
工程: 绿化 园林 景观 装饰 装修 消防 弱电 智能 安防 系统集成 监控 公路 市政 地基 基础 桩基 网架 钢结构 亮化 照明 体育场地 电力 送变电 供配电 防水 水利 幕墙 高速公路 净化 保温 土地 服务: 设计 勘察 监理 规划 造价 审计 印刷 保险 检测 策划 物业 评估 测绘 货物: 电梯 中央空调 电缆 阀门 管材 服装 LED 显示屏 家具 厨具 标识标牌 路灯 变压器 锅炉 图书 医疗器械 医疗设备 仪器 发电机 音响 起重机 饮水安全 护栏 石材 软件 体育器材 环卫 门窗 窗帘 医院 实验室 污水 水处理
山东省计算中心(国家超级计算济南中心)机房运维服务采购需求公示

类别:招标信息---货物招标  地区:济南市  更新时间:2020-6-5 浏览次数:17       关闭 | 

山东省计算中心(国家超级计算济南中心)机房运维服务采购需求公示
一、项目概况及预算情况:
本项目预算金额为985万元。本项目服务范围主要包含:超算中心项目管理、机房容量管理、生产安全管理、服务质量管理、资产管理、人员管理、配置及数据管理、济南超算中心资质协助管理、科研项目开发管理、对外项目管理服务、辅助工作服务、研发集群监控系统、大数据方向拓展服务、帮助开发人员进行 Hadoop、HBase、Hive、Spark 等大数据平台程序调试、调优和监控维护;大数据 CDH 平台,安装部署和调试,故障分析及修复;国家超级计算济南中心神威蓝光超级计算机系统内国产多核主机系统(不含备件)、电源配电系统、制冷系统、网络安全系统、海量存储系统(存储设备)、大规模并行操作系统(含作业调度系统、监控管理系统等)设备及数据库软件等日常巡检、运行维护、定期保养和故障维修等(含备件、耗材)。
二、采购标的具体情况:
详见附件
三、论证意见:
详见附件
四、公示时间:本项目采购需求公示期限为3天:自2020年6月5日起,至2020年6月8日止
五、意见反馈方式:
本项目采购需求方案公示期间接受社会公众及潜在供应商的监督。
请遵循客观、公正的原则,对本项目需求方案提出意见或者建议,并请于2020-06-09前将书面意见反馈至采购人或者采购代理机构,采购人或者采购代理机构应当于公示期满5个工作日内予以处理。
采购人或者采购代理机构未在规定时间内处理或者对处理意见不满意的,异议供应商可就有关问题通过采购文件向采购人或者采购代理机构提出质疑;质疑未在规定时间内得到答复或者对答复不满意的,异议供应商可以向采购人同级财政部门提出投诉。
六、项目联系方式
1、采购单位:山东省计算中心(国家超级计算济南中心) 地址:济南市科院路19号
联系人:卢老师 联系方式:82605292
2.采购代理机构:山东省政府采购中心 地址:山东济南高新区伯乐路190号
联系人:廖老师 联系方式:67801608
一、项目概况
1、项目地址
济南市高新区新泺大街 1768 号,齐鲁软件园大厦 B 座(信息通信研究院大
楼)B 区国家超级计算济南中心一层、地下一层及室外机组区域等。
2、服务范围
国家超级计算济南中心机房建设在齐鲁软件园 U 形楼 B 区,约 2300 余平
方米,主要功能区域:主机房、前端机房、外围机房、高低压配电室、UPS 室和
水泵房等其他辅助设施区域。
本项目服务范围主要包含:超算中心项目管理、机房容量管理、生产安全管
理、服务质量管理、资产管理、人员管理、配置及数据管理、济南超算中心资质
协助管理、科研项目开发管理、对外项目管理服务、辅助工作服务、研发集群监
控系统、大数据方向拓展服务、帮助开发人员进行 Hadoop、HBase、Hive、Spark
等大数据平台程序调试、调优和监控维护;大数据 CDH 平台,安装部署和调试,
故障分析及修复;国家超级计算济南中心神威蓝光超级计算机系统内国产多核主
机系统(不含备件)、电源配电系统、制冷系统、网络安全系统、海量存储系统
(存储设备)、大规模并行操作系统(含作业调度系统、监控管理系统等)设备
及数据库软件等日常巡检、运行维护、定期保养和故障维修等(含备件、耗材)。
3、服务要求
1) 本项目为运行维护服务。
2) 投标人应提交针对本项目的维保方案、巡检报告模版、设备故障
维修报告模版等技术文件,及季度服务考核表模版(含服务要求、处罚措
施等)。各投标中标人根据各包的服务需求约定按时向采购人提交相关的
巡检报告、维修报告、故障分析、季度服务考核自评表等文档。
3) 投标人应提供参与本项目的专业技术人员名单、相关技能资质证
件原件或复印件及相关证明材料。
4) 中标人每服务年度的最后一个月内应向采购人提交一份关于所服
务范围内所有设备的当前状态、存在隐患及维修和保养情况总结。
5) 在维护服务期内,投标中标人违反本招标文件的要求时,采购人
有权单方即时终止服务合同,并有权选择其它的服务单位。但在合同终止
后, 投标中标人仍须承担相应责任。
6) 采购人对投标中标人服务过程与维护结果提出的建议及意见,投
标中标人有责任听取并进行积极整改。 二、服务内容要求
按照国家有关法律法规、行业标准和国际规范,针对本项目范围内涉及系统
设备情况并结合实际需求建立、完善并执行机房运维管理制度,并提供相应的管
理人员与技术人员负责项目管理、运维管理及技术支持,实现对项目范围内有效
运维和管理,分析运行过程出现的问题和记录的数据,提出优化方案提高机房设
备的可靠性与运行效率等。
(1) 提供 7*24 小时的维保服务,保障维保设备和系统稳定运行,负责
运维设备清单中所包含设备的维保,在维保期内免费维修所有故障设备。
保证设备正常使用,负责设备日常维护和安全管理;特别直流 UPS 系统
实际带载时间不低于 90%的原设计带载时间。所有故障器件及易损件的维修、更换
均不再单独计费,投标人不得再以任何形式收取任何费用。
(2) 对维保设备和系统进行定期巡检和预防性维护,具体包括:
A、每天一次的设备和操作系统健康检查,提供运维检查报告。相关报告应
真实,切实反映运行维护实际情况,针对运行维护过程中存在的问题, 及时解决,
并应有提出切实可行的完善方案;
B、每周一次的运行分析、性能评估、容量分析、趋势预测和优化调整服务,
提高系统的可靠性、可用性和整体性能;
C、每月向采购人提交可用性和安全性分析报告,提交预防性维护策略报告;
D、每年定期对维保范围内的软件系统进行日志排查、漏洞修复;
E、每天处理超算用户在使用资源的时候遇到的问题,负责作业提交系统的
定期升级和维护;
F、国产主机和商用集群主机帐号分配及删除、队列分配及回收、故障节点
统计及处理、月度运行报表信息汇总、在线全局文件系统存储使用情况导出;
G、用户机时定期统计及按用户要求统计机时、定期统计过期账号、机时超
时及到期用户提醒;
H、辅助设备上架及系统部署和维护,辅助外围服务节点状态监控和故障处
理;
I、定期完成机房网络设备、安全设备及其他设备的日志分析与检查工作;
定期对核心网络、安全设备的配置文件进行备份;完成机房网络设备、安全设备
的半年及年度保养工作,定期提交网络运行月度报表;顶层网络及计算网络的加
关电、插件的维修更换,IBA 服务器的维护及相关子网维护, 定期对国产网络系
统进行检查,更换故障 IB 线;
J、配合机房网络架构的设计、设备选型、报价及后期技术支持工作; 配合
机房网络、安全设备升级改造、安全策略调整及其他配置工作;配合机房设备位
置规划、网络拓扑图的完善及相关网络端口的分配、IP 地址的分配、VLAN 的划
分及访问控制的优化等工作;
K、配合提供网络方案设计、设备选型及后期的运维服务工作;配合解决客
户遇到的 VPN、FTP 下载及其他网络相关技术问题;配合客户关于网络咨询类、
培训类相关的运维服务工作;
L、定期备份网络设备、安全设备及其他设备的配置文件,并对 log 日志分
析;掌握并完成机房网络规划、IP 资源划分、安全配置调整、流量管控、VPN 账
号分配、日志分析、综合布线、各类网络安全设备的实施、调试等工作;
M、发展中心大数据平台 Hadoop 集群各个组件的维护,硬件节点的维护维
修,Ldap 账号、VPN 账号的分配及回收,山石防火墙、山石 IPS、山石病毒墙的
策略调整及专线接入,配合华三核心交换机及接入交换机的 VLAN 划分,Qos 及
ACL 等相关权限控制,配合锐捷千兆交换机、万兆交换机的配置及策略调整;
N、为保障神威蓝光高速互联网络系统稳定性,要求 IB 交换机及网络核心
安全设备提供备机服务;
0、国产主机硬件系统的日常维护与故障处理。例如:定期处理运算板故障
插件、DCups 系统各类通讯板与控制板故障;全面配合超算中心年度两次停机保
养工作;
P、每年按要求对超算中心机房制冷设备(精密空调、冷水机组、新风排烟
系统)进行 12 次巡检,为招标方提供全面的阶段性巡检,校正精密空调数据、
准确无误,设备外表面清洁、控制及通信功能正常,每季度进行空气过滤器更换,
夏季对室外冷凝器重点保养,清洗,服务期内免费提供所需的备品备件;
Q、每年按要求对超算中心机房电源设备(DCups/ACups/高低压配电设备)
进行 12 次巡检,检查 UPS 接地、负载是否正常,每季度进行一次 UPS 放电测
试,对电池内阻进行检测,校正 UPS 数据、准确无误,定期检查配电柜中的智能
电量监测仪,监测机房供电情况。并设置电流表、电压表、频率表、以便检查电
源电压、电流、三相间平衡关系和电源输出频率变化。检查各配电柜中主要断路
器辅助触点,无老化污渍现象,服务期内免费提供所需的备品备件;
R、全面检测消防系统,更换相应有泄漏的阀门或其他部件,对机房原有七
氟丙烷钢瓶重新称重灌装,出具称重报告。每月对气体管网进行巡检, 巡检火灾
控制主机及配套烟感温感检测探头,对各回路探测器进行部分驱动检测,检测储
气瓶压力是否正常范围内,无泄漏。对选择阀,气流单向阀, 高压软管,电磁驱
动装置等进行全面检测,检测驱动瓶的压力,如压力不足及时进行全面维护;
S、定期全面检查机房装饰装修系统各项异常,及时调整防静电地板、检查
防火门、隔断、天花吊顶、闭门器等是否异常。保障机房照明系统稳定,照度要
求:主机房区平均照度不低于 500lx,辅助区不低于 300lx,应急照明不低于 50lx,
安全出口标志灯其照度不低于 15lx。对损坏的格栅荧光灯具及时进行更换;
T、每年按要求对超算中心机房环境监控系统( 漏水检测,烟雾报警, 视
频监控,门禁控制)行 24 次巡检,定期巡检时检查主要相应设备的运行数据是
否正常,是否有触发报警的情况发生,并针对设备的相应情况,做出处理。
(3) 现场技术支持
对于重大故障处理、关键性能调优、存储划盘、服务器性能调优、机房
升级改造技术方案制定等,提供现场技术支持。投标人应在每次现场技术支
持开始前至少 2 天向我方提交相应的技术实施方案,并在每次现场技术支持
结束后向我方提交总结报告。
A、对于在维保服务期内损坏的设备配件,中标人应在 12 小时内提供备件
支持并现场更换,并在 7 个工作日内修复损坏配件。超期不能修复的,须更换同
一品牌及型号的新配件,并提交修复时间计划,维修结束后需提交相关资料存档。
B、当发生硬件设备故障时,如不能在 4 小时内修复故障,中标人必须提供
备机。
C、为保证计算中心的如下设备稳定性与系统的高可用性,我们把故障类型
分为如下四个不同等级:
一级:系统宕机或关键性故障导致系统不可用。到场服务时间小于 5 分
钟;
二级:系统性能严重损坏,但系统仍可正常运行。到场服务时间小于 10
分钟;
三级:系统出现直接影响服务、导致性能或服务部分退化的故障。到
场服务时间小于 15 分钟;
四级:系统运行仅受到有限的影响或未受到严重影响。到场服务时间
小于 20 分钟;
除响应如上故障等级要求,还应保证所提供的服务,符合合同规定的技术要
求。如不符时,应负全责并尽快处理解决,由此造成的损失和相关费用由乙方负
责,甲方保留终止合同及索赔的权利。
D、重大事件的现场值守服务:维保服务期内,用户在出现新系统上线、系
统割接、设备扩容、移机、机房调整等重大系统事件时,投标人须对参保设备提
供设备移动、安装调试、配置调整、数据迁移、辅助工具软件安装等现场服务。
对于不属于维保服务范围内设备,应现场配合用户及其他厂商, 并提供必要的辅
助服务。
(4) 培训要求:年度提供不少于 15 人次境内培训,培训内容包括但不限于工作
原理、基本操作、系统安装及调优、故障分析及排除、性能分析及调优、设备硬件更换等。
对于设备硬件级培训,每年向采购人提供至少 2 人次的原厂专业技术培训,培训周期不低
于 3 天/人次。投标人应编制详细的培训方案,包括培训的具体内容、培训地点、人数、
培训进度计划等。培训内容、教材和授课教师、场地及食宿等费用由投标人提供。培训人
员是相关资深专家顾问进行授课培训和具有至少 5 年培训经验。
(5) 知识库要求:提供运维知识库,并向采购人提供电子版,要求包含但不限于
维保范围中可能出现的故障的解决方式。
(6) △备件库要求:为保证神威蓝光千万亿次计算机的稳定运行及应急处理能力,
要求投标人必须具有稳定畅通的备件渠道,并在现场必须具有独立的备件库,针对机房及
配套区域内供配电源系统、机房及配套区域内制冷及新排风系统、机房及配套区域弱电监
控系统、高速互联网络系统中所涉及设备的场维修备件存量不得低于设备总数量的 2%,济
南本地备件库存放不得低于 5%,备品备件种类齐全,管理完善。备件的覆盖率不低于 90%,
现场维修工具需要存放 2 套。采购人将根据需要决定是否对投标人进行现场踏勘,以考察
和验证投标人的真实能力。投标人提供的针对各项条件的证明材料应是真实、完整、充分
的,否则将被视为不符合条件。
在本项目中,投标人应明确自己的责任和义务,在充分了解我方现有环境的基础上,
提供规范化、高质量的服务,并对服务质量做出可量化的承诺。
(7) 团队要求:具有 5 年维护经验的工程师,且人数不少于 20 人,并提供社保
证明,项目负责人不可变更,且团队成员不少于 1 人持有高级电工证、制冷证、网络技能
证书、linux 系统管理证书、高压入网操作证、数据库认证、网络专业认证、服务器认证、
存储设备认证证书。投标人需提供以上的技术人员相关资格认证,需提供项目组人员清单。
(8) 服务流程要求:有完整的服务流程,并且拥有充足的技术团队, 明确针对
本项目的技术队伍和调度流程,明确技术负责人和相关接口人。提供针对本项目拟定巡检
工作方案、故障排查方案、维修服务方案、技术支持方案等。提供详细流程文档,提供系
统故障记录分析和问题报告,建立维护服务档案,记录系统配置、维护记录等。
主动式服务:提供定期预防性维护服务、系统运行健康检查、系统运行状况
分析、系统容量评估、重大变更和重点时段保障支持,分别给出合理处理方案、
流程、服务记录文档模版。
纠错性维护及维修服务:根据我方的要求,投标人应提供针故障等级划分。
在系统服务方面,投标人应及时解决系统软件问题,同时提供软件纠错性服务。
在备件服务方面,投标人应承诺及时确认故障原因维修或更换故障备件。
(9) 响应式服务要求
基本要求
投标人提供 7*24 小时的技术服务电话。接到采购人通知后 5 分钟内进行响
应。
针对不同级别故障,服务方应给出具体的响应时间。
投标人应具备完备可靠的服务管理流程,能够对服务请求进行派发、跟踪、
升级、管理、总结和监督,为我方提供完整的故障处理报告电子版。
故障升级处理要求
如投标人不能按基本要求规定的时间彻底排除设备故障,需立即启动故障升
级处理程序。我方将根据故障解决时间中超出规定时间的部分,对投标人进行相
应的问责和索赔。情节特别严重的,我方将解除本项目的服务合同。
(10) 服务报告要求
△投标人应主动与我方及时沟通服务情况,每月定期提供服务月报、
每年服务期提供服务年报,并对每一次重大故障和问题的原因、解决方
法、完成情况等形成专门报告,及时报送我方。投标人应事先提供相关服务
的月报、年报和专题报告的样本加盖公章。
(11) 项目管理要求
投标人应派遣一名资深管理人员作为与我方的接口,统筹本项目全部工作,
并提供派出本项目各系统管理人员的名单及联系方式等。
(12) 质量管理要求
投标人应根据本项目要求,提出服务质量管理及监控具体措施。
依据服务指标运行情况,建立运营服务水平评价体系:服务运行指标体系覆
盖系统连续性服务能力、系统设备可用性、人员服务能力、项目管理等方面,通
过服务指标监控和运行分析,实现对运行服务的集中、分级管理和监控,并能够
及时调整运行维护策略,促进运营质量和效率的提高。从整体运营、优化的角度,
包括但不限于实现以下内容,并根据实际业务运行需求不断完善优化:
(13) 运行管理要求
根据运营目标针对各软硬件系统、设施制定相应运行、保养维护、操作规范,
针对各系统风险点和项目实施期间发现的问题制定相应的技术解决和优化方案,
并跟进日常各种问题、故障的处理实施情况。
(14) 机房容量管理:
根据中心实际情况与业务需要,综合计算、存储、网络、供配电、制冷、消
防、承重、设备管理等因素,形成机房动力环境系统设备的运行管理规范。
(15) 生产安全管理:
根据国家有关的法律法规及行业规范,从生产运行、人身安全、资产、信息
等角度制定安全管理制度,并切实执行。
(16) 服务质量管理:
根据实际运营工作需要,制定服务质量标准及质量控制规程,通过培训、演
练等多种方式实现对项目实施质量的控制。
(17) 资产管理:
针对本项目范围内所涉及的设施、设备、耗材、工具、软件等等制定严格的
管理规范,并落实相关管理岗位责任。
(18) 人员管理:
根据岗位需要和项目要求,配备具体相关技能、资格证 书及资历的服务人员,
并制定完善的人员管理与考核制度。
(19) 配置及数据管理:
针对本项目实施所涉及和产生的包括系统资料、规章制度、系统运行要求、
运行数据、实施记录等所有与项目有关的信息数据应该进行及时的整理、保存,
并根据其关联性形成目录确保运行过程中的操作均可追溯。
(20) 济南超算中心资质协助管理:
针对山东省计算中心(国家超级计算济南中心)国军标资质管理体系、机房
绿色试点机房管理体系、武器装备资质管理体系相关的管理文档编写、运营文档
填写、外部专家审核等代维工作事宜。
(21) 辅助工作管理:
△CESM 众核化移植、国家网格项目、海洋模式与管理子系统研制、鳌山
科技创新计划项目等相关科研工作事宜;E 级原型机重大科研项目部署相关
工作,包含软件移植、供配电改造、制冷系统改造、机柜拆除、维护管理等
相关事宜。自动众核化工具、集群自动化批量部署工具、集群智能化运维工
具等应用工具的开发工作。研发针对国产化的智能集成监控平台,优化 Web
UI 界面,完善数据库系统;基于开源的 OpenPBS、LSF 集群调度进行二次开
发,嵌入内存控制、优先级控制等相关的模块化的功能定制研发集群调度系
统等。
(22) 对外项目管理服务:
对接相关企事业单位,联合相关单位及部门承接科研辅助及开发工作,目前
的领域有海洋、遥感、石油勘探等。申请科研项目,组建公司内部科研研发团队,
依托科研项目产出并申请软件著作权、专利等成果等。基于现有的国产超级计算
机以及未来的 E 级验证机、E 级机等的神威编译环境,移植并优化底层数学库、
移植并优化应用型软件等。根据用户需求完成定制化开发,并承担一定的科研研
发工作,配合公司研发团队进行产品研发。提供网络方案设计、设备选型及后期
的运营服务工作。负责解决客户遇到的 VPN、FTP 下载及其他网络相关技术问题;
负责客户关于网络咨询类、培训类相关的运营服务等工作。对外提供,Linux 系
统基础、文件系统、调度系统、编译器、监控系统、网络安全、路由交换等相关
的技术培训。对外提供小型高性能集群的方案设计、搭建及后期运营服务。
(23) 大数据方向拓展服务:
大数据平台搭建方案,包括大数据集群的高可用规划和设计,容量规划性能
预测等。大数据平台硬件环境搭建、运营和日常监控工作,保障数据平台服务的
稳定性、高效运转、安全和可用性。Hadoop、HBase、Hive、Spark 等大数据平台
平台搭建,运营,管理,系统故障分析和性能调优,并能够解决数据无丢失情况
下版本持续在线或者离线升级、数据安全及数据备份,扩容等问题。采集平台运
营监控,监控调优大数据集群、linux 集群,对平台的 Hadoop,Hbase,Kafka,
Hive 进行优化。自动化运营系统及平台的建设, 持续优化性能和部署方式, 负责
优化部门运营流程提升运营效率。通过 Impala、kudu、Hbase 等组件,能够通过
各种组件 API 进行开发,能够提出优化方案。
帮助开发人员进行 Hadoop、HBase、Hive、Spark 等大数据平台程序调试、
调优和监控维护。大数据 CDH 平台,安装部署和调试,故障分析及修复。
(24) 云计算方向业务拓展服务:
支持计算中心“水滴实验营”教学实训平台的部署安装,以及后期的技术支持服务。
并可协助完成部分相关平台的定制开发工作。
支持超算科技园区云平台的技术支持服务,以及协助完成部分相关平台的定制开
发工作。
(25) 园区对外会议接待服务:
根据甲方相关要求配接待、讲解、会场展厅布置等任务,包含,如下:参观
讲解,主要介绍园区建设背景、园区发展规划、园区先进科研应用、超级计算平
台、山东省科技发展、新旧等能转化等内容;展厅参观:引导领导参观园区展馆,
提前准备相关参观所需设备;会场布置:工作主要整理会议所用设备,搞好卫生。
(要求桌面及地面要整洁干净,照明灯正常开启,各种用具干净齐全,会议使用
物件摆放整齐。) 调试好相关设备,如音响、投影仪、视频、麦克风等,并确保
其正常使用,根据情况提前打开空调,调整好室温,开灯。准备并摆放好会议需
要物品。 三、驻场值班服务要求
1、服务目标
提供不低于项目要求和标准的驻场值班团队,实现全年7×24小时(含节假日)
的机房值班监控及系统运行服务,对机房动力环境系统进行实时监控、定时巡查、业
务办理和故障处理服务。
2、服务内容
负责本项目范围内所有系统的值班监控、故障处理及现场组织的协调工作,
并对机房计算存储等配套区域智能化和监控系统、消防系统及设施、主机电源系
统、制冷系统、机房环境(如为机房正常运行提供服务的建筑、系统、设施设备
等等)机房日常运行维护及一般性维修工作的监控管理。
中标人应提供所有设备维护保养所需要的工具和材料(相关费用已包含在投
标价中),负责项目范围内所有设施系统的日常运行和管理工作,包括:针对不
同设备的保养要求和实际运行情况,按照国家相关法律法规及行业标准制定对应
的日常巡查和操作规程、全年保养计划、运行管理规范,完成日常的设备巡查、
抄表、设备操作等并予以落实;针对各系统设备的实际情况列出各系统运维重点、
难点、风险点并制定应急预案及操作规范,针对运行过程中发现的各种问题、故
障、隐患提供相应的技术解决方案等等;定期对系统及设备的可靠性进行检查,及
时发现隐患问题并提出相关解决方案,确保系统处于安全可靠的运行状态。
3、超算机房各系统日常与故障响应要求明细表
1、交流与直流 UPS 系统维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.AC/DC UPS 及 系统运行数据记录、
分析;
2.查看 AC/DC UPS 及 系统运行情况
和报警信息;
3.查看蓄电池外观是否正常;
4.对系统设备、配电柜、冷冻水泵等
设备的运行巡查;
5.查看机房环境温湿度等。
365 天*6 次 日常巡检表
2 故障响应
当超算中心机房 AC/DC UPS 及 系统
设备出现故障时,提供故障处理及抢
修服务,及时处理设备及线路故障,
更换损坏部件。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
出具的故障维
修报告
2、机房配电系统维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看配电系统设备外观是否正常;
2.查看各配电装置和电器内部有无
异声异味;
3.根据需求,按照规程规定进行设备
停送电,参数调整,运行方式切换等;
4.查看电房环境温湿度、漏水等情
况。
365 天*6 次 日常巡检表
2 故障响应
当超算中心机房系统设备出现故障
时,提供故障处理及抢修服务,及时
处理设备及线路故障,更换损坏部
件。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
出具的故障维
修报告
3、机房装饰装修系统维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看机房各重点区域吊顶是否有
异常;
2.查看机房各重点区域墙面彩钢板
和乳胶漆面板有无异常、损坏现象;
3.查看机房各区域防静电地板是否
平稳牢固;
4.查看机房各区域防火门状态是否
正常,是否关闭,闭门器是否合理;
5、机房各区域防静电地板下制冷管
路保温棉是否破损,电缆桥架是否正
常、是否有异物。
365 天*6 次 日常巡检表
2 故障响应
当超算中心机房装饰装修系统出现
故障,异常时,提供故障处理及抢修
服务。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
出具的故障维
修报告
4、防雷接地系维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看防雷模块设备故障指示窗口
是否正常
365 天*6 次 日常巡检表
2 故障响应
当超算中心机房系统设备出现故障
时,提供故障处理及抢修服务,及时
处理设备及线路故障,更换损坏部
件。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
出具的故障维
修报告
5、暖通系统维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看暖通系统设备外观是否正常;
2.查看暖通各设备运行仪表和指示
灯有无异常;
3.查看各区域冷冻水温度、室温、湿
度情况是否正常;
4. 检查供换热机电设备(水泵、板
式换热器等)运行参数,巡查管网及
保温状况、抽查用冷终端效果(如温
度、室温、湿度),及时发现超标或
异常情况;
5.查看机房环境温湿度、漏水等情
况。
365 天*6 次 日常巡检表
2 故障响应
当超算中心暖通系统设备出现故障
时,提供故障处理及抢修服务,及时
处理设备及线路故障,更换损坏部
件。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
出具的故障维
修报告
6、消防系统及设施维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看消防系统主机是否提示故障
报警,记录主机系统工作情况;
2. 烟感、温感是否正常工作,指示
灯是否完好;
3.检查栓门、锁、玻璃完好;线路
标号是否清晰;
4. 元件是否破损、脱落;
5. 疏散警告标示是否明确,是否脱
落,防火帘、防火门是否完好等。
365 天*6 次 日常巡检表
2 故障响应
当超算中心机房消防系统设备出现
故障时,提供故障处理及抢修服务,
及时处理设备及线路故障,更换损坏
部件。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
故障维修报告
7、环境监控系统及设施维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看监控系统显示屏提示的工作
情况和报警信息情况;
2. 使用监控系统对软硬件设备进行
监控,记录监控系统的告警信息,并
通过统一运维服务平台以派单方式
将工单传递给维护团队,并进行跟踪
反馈;
3. 负责对外部人员进出机房的资
格,并作好进出人员登记;
4. 为授权人员进出机房开门,离开
时督促相关人员整理好机房环境;
5、业务办理:接收并处理用户在使
用中心所提供技术产品或服务的过
程中,通过电话、邮件及公文等形式
提出的咨询、故障报修、投诉和其他
技术相关求助;
6.非工作时间、节假日对机房环境进
行预防性的系统状态巡检,并提供规
365 天*6 次 日常巡检表
范的检查报告等。
2 故障响应
当超算中心机房环境监控系统设备
出现故障时,提供故障处理及抢修服
务,及时处理设备及线路故障,更换
损坏部件。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
故障维修报告
8、计算存储系统维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.查看系统监控平台及GridView
作业调度系统,处理报警信息;
2.查看Parastor文件系统节点及
海量存储系统DB、MDS、IO、FS、
AFS等服务器状态及各应用节点
挂载状态,处理报警信息;
3.检查Parastor监控平台及
SANtricity监控软件,处理存储
设备硬盘故障;
4.为用户分配帐号及计算存储资
源;
5.通过电话、邮件、面谈等方式,
解答用户咨询及使用过程中发现
的问题;
6.负责各类服务器的上架、调试、
下架等工作;
7.按用户需求进行数据拷贝,目
录迁移等工作;
365 天*6 次 日常巡检表
8.现场检查计算和存储设备指示
灯,及接线状态,更换故障配件;
9.按时统计系统使用情况、用户
使用机时,存储资源利用率等参
数并提供报表;
10.按需求为用户各服务器挂载
存储资源;
2
故障相应
当超算中心机房系统出现故障或
安全隐患时,按照突发情况预案
及时响应,恢复系统正常工作状
态,确保业务正常运行。
5 分 钟 响
应,30 分钟
内专业工程
师 到 达 现
场,配件 4
小时抵达现
场,故障 8
小时内解决
故障维修报

9、网络及安全系统维护工作内容要求
序号 维护方式 维护内容 维护频率 维护产出物
1 日检
1.检查各个区域以太网交换机、IB
交换机、安全设备状态,并记录;
2.检查 IMC 监控软件,各网络及安全
设备 WEB 界面状态;
3.负责机房各服务器及其他设备的
综合布线,交换机上架及调试,网络
安全设备上架及调试工作;
4.负责机房门禁系统、监控系统、环
控系统等其他系统的网络规划及设
备调试工作;
5.业务办理:接收并处理用户在使用
中心所提供技术产品或服务的过程
中,通过电话、邮件及公文等形式提
出的咨询、故障报修、投诉和其他技
术相关求助;
6.非工作时间、节假日对机房网络及
安全系统进行预防性的系统状态巡
检,并提供规范的检查报告等;
7.负责机房区域、办公区域的 IP 地
址规划、方案设计、实施及后期的运
维工作;
365 天*6 次 日常巡检表
2 故障响应
当超算中心机房网络安全系统硬件
或者软件层面出现故障或安全隐患
时,及时提供故障处理及应急服务,
及时处理故障或安全隐患,恢复系统
正常工作状态,确保业务正常运行。
5 分钟响应,
30 分钟内专
业 工 程 师 到
达现场,配件
4 小时抵达现
场,故障 8 小
时内解决
故障维修报告
4、服务要求
驻场值班团队负责机房及配套区域(含办公区域)内所有设备设施的日常值
班监控、业务及各种故障的现场处理跟进,必须指定团队负责人配合运维技术主
管负责团队的日常管理、培训等工作的组织和落实,各种例行报告及故障处理报
告的编写,制定、实施,各系统系统的管理制度和应急预案,组织、联系并实设
施设备的维保、检修及保养等工作。
驻场运维监控要求不低于以下标准:
序号 工作内容 巡检内容 工作要求
1
日常监控及
系统巡查
机房及配套区
域 的 消 防 系
统、智能 化
和 监 控 系
统、机房环境(如
为机房正常运
行 提 供 服
务 的 建 筑、
系统、设施设
备等等)
1、日常巡查:制定计划并对各
系统包括设备设施的放置情况
系统状况、系统设置状况等等每日
进行定时巡查,确保各系统设备设
施按照相关规范使用放置 2、日
常维护:要求专业服务公司进行
月度巡检,对系统系统主要设备、
监控探头等设施进行测试,确保系
统运行状态良好;3、日常管理:
并对现场不符合规范(如整洁、
温湿度、消防等等)的情况进行
处理;
4、故障处理:设备有故障时及
时进行现场应急处理操作,并通知
二线技术支持人员与厂商进
行解决。

1、7×24 小时驻场巡检、运 。
行维护;
2、巡查频次:每月巡检 1 次并
有记录;
3、保养要求:每季度不少于
1 次的建筑消防设施及消防情
况进行检查并提供维护报告
4、现场突发故障、事件的应
急处理。
2
日常服务
日常监控
使用监控系统对软硬件设
备进行监控,记录将用户的服务
请求及监控系统的告警信息并
通过统一运维服务平台以
派单方式将工单传递给维
护团队,并进行跟踪反馈。
应急通报
当发生突发事件时,按相应应急
预案进行处置,并向相关领导汇
报,服务台监控岗根据事件等
级,按重要运维故障通告制度分
级向相关领导汇报。
业务办理
接收 并处 理用户 在使 用中
心所 提供 技术产 品或 服务
的过程中,通过电话、邮件及
公文等形式提出的咨询、故
障报 修、 投诉和 其他 技术
相关求助。
3 现场管理
人员资格核查、登记
负责对外部人员进出机房
的资格,并作好进出人员登记
为授权人员进出机房开门
为授权人员进出机房开门,离
开时 督促 相关人 员整 理好
机房环境。
5、人员资质及岗位职责要求
投标人须承诺本次项目内所提供所有人员均按照国家法律提供完整的劳动保
障,并承担所有人员的疾病、安全等所有需向劳动人员承担的责任,驻场值班团队
人员实行三班轮岗制,每班不少于 5 人,每班每人值班时长不能超 8 小时、一
周不能超过 40 小时,确保值班人员工作状态。
★投标人须按要求提供不少于 20 人驻场服务团队,包括不少于以下数量的
人员:
投标人提供不少于 20 人驻场服务团队,驻场服务团队包括:
1)项目经理 1 名(5×8 驻场,7×24 小时待命);
2)运营技术主管不少于 1 名(5×8 驻场,7×24 小时待命);
3)值班团队人员不少于 15 名(全年 7×24 小时驻场值班)。
驻场值班团队负责机房及配套区域(含办公区域)内所有设备设施的日常值
班监控、业务及各种故障的现场处理跟进,必须指定团队负责人配合运营技术主
管负责团队的日常管理、培训等工作的组织和落实,各种例行报告及故障处理报
告的编写,制定、实施,各系统系统的管理制度和应急预案,组织、联系并实设
施设备的维保、检修及保养,并制定值班登记制度,包含到岗与离岗时间,并按
照相关规定指纹或面部识别打卡等工作。
1、 每班值班人员组成要求:
投标人需保证驻场值班团队人员的构成能在安排3个班组进行轮班的
情况下,倒班每班总人数不少于5人,且技能要求如下:
 倒班值班人员安排不低于以下要求:
① 不少于1名人员具备高压操作证;
② 不少于1名人员具备电工证;
③ 不少于1名人员具备制冷证;
④ 不少于1名人员具备建(构)筑物消防员资格
 长白班人员安排不低于以下要求
① 不少于1名具备网络技能证书;
② 不少于1名具备linux系统管理证书;
③ 不少于1名具备数据库认证;
④ 不少于1名具备存储设备认证证书
⑤ 不少于1名oracle数据库相关资格认证
岗位职责要求:
当班班长负责指挥协调值班团队完成本项目范围内所包含设备设施的日常监
控运营、现场故障处理、生产安全监控及处理等服务,并配合其他值班人员处理各种突
发事件,要求如下:
1) △当班值班人员须在故障出现后5分钟内到达现场,并在班长指挥下10分
钟内完成应急处理流程防止影响扩大并保证机房正常运行,并配合后续的设备维修、
现场管理等等工作,并提供书面承诺与惩罚措施。
2) 每班有明确的当班班长,负责协调指挥现场值班人员按照相关规程及要
求完成值班任务,在故障出现20分钟内通知相关设备维保商、投标人二线技术支
持团队,并组织现场人员完成供电保障工作,配合设备维保商完成设备维修工作;
运营管理团队须在接到故障报告后1小时内到场组织协调二线技术支持团队
人员及各相关方做好故障处理、设备维修等等工作。
人员资质及岗位职责明细
团队稳定性要求:
投标人须承诺保证团队稳定性,项目期间团队人员变动率不得高于30%且出现
人员变更后团队技能标准不得低于投标时的响应级别,情节严重的如项目开始后
实际驻场团队与项目开始时名单变化变化大(超过50%)或团队(人员)资质无法
达到投标时响应级别的,招标人有权终止合同并重新招标新的服务商接替, 由此
编号 岗位设置 资质要求 岗位职责
1 项目经理1.研究生及以上
学历,管理/计算
机及相关专业;
2.具备5年以上大
型数据中心核心
设施与基础设施
设备维护管理经
验或数据中心管
理 经 验 者 ;
3.PMP 项目管理
专业人士资格认
证。
负责数据中心基础设施管理和整个团队建设管
理,并作为现场运营接口人
1、提供5×8小时的驻场运营管理服务工作;
2、负责机房制定并协调用户、相关管理单位
二线资源、专业分包商实施整体运营计划;3、
负责组织二线运营团队为运营工作提供技术
支持及支持工作;
4、负责组织二线资源对实际维过程中发现的
问题提供技术方案并组织实施;
5、负责制定机房运营管理制度并形成相应的文
档(包括相应的管理制度、规范、流程及表单),
不断根据实际运行情况进行优化、完善并落实;
6、负责对各系统编写技术文档(包括配置要求、
操作指南、应急预案、故障处理、业务办理流
程及表单等),不断优化完善并对驻场值班人员组
织培训、落实;
2
驻场值班
人员
1、本科及以上学
历,,计算机/自
动 化相关专业。
2.5年以上相关工
作经验。
l、参加7×24小时(含节假日)值班工作,每班5
人,每天机房巡检不低于6次。
2、负责本项目涉及的区域、系统设备的日常
监控、巡检、保养、维修等工作并对安全性进
行监控;
3、负责按照相应的系统管理规范,根据实际
业务需求对系统进行相应操作;
4、参加突发事件的现场处理工作;
5、负责综合布线,网络及安全设备的运营及
调试,服务器系统、数据库系统的安装及运营
工作,负责机房其他资源的分配及技术支持工
作等;
产生的损失及过渡费用由投标人承担。
1) 项目经理及技术主管为驻场人员,人员与投标时一致且项目开始后6个月
内不得变更。(项目开始后6个月内提供不低于投标时标准的人员进行变更的,扣
除该岗位人员每月费用的20%)。
2) 项目团队变更率:以项目开始时人员名单为准,驻场人员变更数量不得高
于30%即6名,超过此数量按相关处罚条款进行处罚。
为保障团队对设备维护、操作及现场情况和管理要求的熟悉程度,投标人应
提供完善团队稳定性方案,从人员储备、待遇等方面提供可靠的团队保障。 四、维护设备详细清单
系统分为软件与硬件两部分,硬件清单采购时间为 2011 年下半年,软件系
统部署时间 2011 年下半年。
1、硬件系统清单
(一)机房及配套区域内供配电源系统
包括变配电系统、动力配电系统、照明及防雷和接地配电系统、主要电
源设备等系统的设备如:高低压供电设备(如10KV线路、高压柜、低压柜、
变压器及配套控制系统和管线等等); UPS系统设备(如直流UPS主机、配套
电池组、整流器、充电器、通讯管理抽屉、交流UPS主机、蓄电池组、逆
变器、互投装置和系统控制器等等);机房及配套区域配电系统配电设备(如
低压配电柜、配电箱、机柜内供配电设备、模块、日常用工作电源以及相应
的配电线路等等);机房及配套区域的防雷接地系统(如防雷及安全用电保
护设备、模块,接地线、铜排、母线等等);机房照明、办公和检修用电等
设备,设备均购于2011年下半年,详细设备清单如下:
序号 设备名称 型号 数量
1 变压器 山东达驰,干式 10kV 1250kVA 变压器 6 台
2 高压配电柜 山东爱普 18 台
3 低压配电柜 山东爱普 43 台
4 电容补偿柜 山东爱普 10 台
5 有缘滤波柜 山东爱普 2 台
6 直流屏 山东爱普 1 套
备注
双回路 10kV 高压进线,主备方式运行,含避雷器、有
源/无源补偿、配电监测、漏电监测等。
序号 设备名称 型号 数量
1 交流 UPS 梅 兰 日 兰 Galaxy 7000,500kVA,输入380V
交流,输出 380V 交流
2 台
2 电池检测 C&D,铅酸电池,12V-242Ah,一年 2 次 192 只
3 交流配电柜 广州白云,380V,施耐德开关 10 台
4 UPS 进出线柜 广州白云,380V,施耐德开关 4 台
5 直流配电柜 广州白云,300V,施耐德开关 4 台
6 配电监测系

硬件监测模块、串口服务器及配套线缆等 1 套
7 交流 UPS 电
容维护
Galaxy 7000,500kVA,输入 380V 交流,
输出 380V 交流
2 套
序号 设备名称 型号 数量
1 整流抽屉 30070n(额定功率60KW-70KW) 38台
2 充电抽屉 30070n(额定功率60KW-70KW) 19台
3 变压器 SZC-70KVA/0.5 10台
4 管理抽屉 30070n(额定功率60KW-70KW) 19台
5 监控软件
集成监控平台 DCups 配电系统监控软件
及数据库
若干
6
监控配套硬
件设备
协议转换器等设备 2台
7 蓄电池检测
维护及更换、
内阻检测
厂家:双登;型号:6-GFMJ-100、电压:
12V 容量:100Ah
286 块
8
蓄电池检测
维护及更换、
内阻检测
厂家:西恩迪;型号:铅酸蓄电池,12V、
54AH
132 块
(二)机房及配套区域内制冷及新排风系统
包括水冷系统、空调补水排水系统、精密空调系统的设备如:机房及配
套区域内的所有磁悬浮冷水机组、双模冷水机组、冷水管道、板式换热器、
水泵、机房精密空调、行间精密空调、新风机、排风机、风机盘管及新排风
管道、管道阀门等等,详细设备清单如下:
(三)机房及配套区域弱电监控系统
序号 设备名称 型号 数量
1 冷水机组 1 捷丰磁悬浮冷水机组 1200KW 1 台
2
电动阀、流
量计室内控
制系统
宁波顺丰自控 1 套
3 冷水机组 2 捷丰冷水机组 SCR131CF,4 个模块,单
模块制冷量 160kW
3.5 台
4 冷水机组 2
控制系统
MV6-MSA-D 控制器 4 套
5 水泵 格兰富变频水泵,CRN90-3A-F-G-V-HOOV 6 台
6 水泵控制柜 KT-WYBS 1 套
7 过滤器 上海过滤器 4 台
8 补水系统 蓄水箱、补水箱及控制系统 1 套
9
APC 水风换
热空调
APC ACRC-103,制冷量 30kW 10 台
10
APC 水分配
单元
APC ACFD12-B 1 台
11
STULZ 精密
空调
STULZ ASD-361A-E,制冷量 30kW 14 台
12
STULZ 水风
换热空调
STULZ ASD-660CW-E,制冷量 66kW 5 台
13 Daikin 空调 Daikin 大金,5P 3 台
14 新风机
天方 X-35D、X-08D;
聚英 SWF-II-8A
2 台
15 风机盘管 YGFC-06-CD-3-H;YGFC-08-CD-3-H 10 台
包括:串口服务器、监控主机、检测模块、视频监控、门禁监控、机房
环境监控、漏水检测等等。详细设备清单如下:
序号 设备名称 型号 数量
1 串口服务器 Moxa nport 5630-8 1 台
2 串口服务器 Moxa nport express 1 台
3 串口服务器 Moxa nport 5650I-8-DT 1 台
4 串口服务器 Moxa nport 5650I-8-DT 1 台
5 串口服务器 Moxa 5610-8 1 台
6 串口服务器 Moxa 5610-16 1 台
7 串口服务器 RS-8BG 1 台
8 串口服务器 RS-16BG 1 台
9 门禁控制器 台湾 SYRIS SY260NT4-V3A 7 台
10 读卡器 台湾 SYRIS SYRDS1-M1-BSY 21 台
11 出门按钮 英国 ELEM EF105 19 台
12 门钟 竞争,SAC35C-Q 1 台
13 门钟开关 竞争,MT670J 2 台
14 门钟控制器 竞争,SD3B-N 1 台
15 室内变焦半
球摄像机
SCC-5366P 3 台
16 室内定焦半
球摄像机
SCC-B5331P 22 台
17 室外球型摄
像机
SCC-C7439P 3 台
18 温湿度探测

TH-01 28 台
19 漏水监测线 TH-01 4 台
20 漏水感应器 TH-01 18 台
21 室内 LED 显示

TK600-3IN1 1 套
22 103 寸等离子 TH-103PF12C 1 台
23 60 寸等离子 TH-60PF30C 1 台
24
50 寸等离子
一体机
HVP-S50 Hitevision 4 台
25 中央控制器 1 台
26 65 寸等离子 HVP-S65 Hitevision 1 台
(四)机房及配套区域消防系统及设施
包括电气火灾监控系统、火灾自动报警系统、气体灭火系统设备,如: 机
房及配套区域内所有管网、无管网的喷淋/气体/干粉灭火设备设施(如七氟
丙烷、二氧化碳等等)、火灾自动报警设备、消防主机、配套消防设备设施
(如灭火筒、防毒面具)详细设备清单如下:
(五) 神威蓝光千万亿次国产多核计算机及辅助设备
包括国产神威蓝光超级计算机一套,浪潮商用集群一套、曙光集群一套、
NFS 服务器、MDS/IO 服务器、SN/IO/IBA/FS 服务器、FS 代理服务器、图站、
DB/Xen/ 其它服务器,在线磁盘阵列一套、曙光 parastor 存储一套;数据
库软件及
序号 设备名称 型号 数量
1 气体消防 感烟探测器 90 个
2 气体消防 温感探测器 126 个
3 气体消防 声光报警器 16 个
4 气体消防 灭火剂储瓶 NZQ120L HFC-227ea 14 台
5 气体消防 气体灭火控制盘 2 台
6 气体消防 火灾报警控制器 1 台
7 气体消防控制
主机
联动控制盘 1 台
8 水喷淋 喷头 26 个
9 灭火器 ABC 干粉灭火器 4 公斤 8 台
10 灭火器 BC 干粉灭火器 4 公斤 12 台
11 灭火器 二氧化碳灭火器 3 公斤 6 台
中间件;详细设备清单如下:


设备名称 型号 数量
1 双 CPU 节点板 (申威 1600)双 CPU 节点板 4352 块
2 节点冷板 (申威 1600)节点冷板 1088 块
3
HCA板(及HCA 热管导
热版)
(申威 1600)HCA板(及HCA 热
管导热版)
1088 块
4
12V 电源模块(及电源
模块热管导热板)
(申威 1600)12V 电源模块(及
电源模块热管导热板)
3768 块
5 主机网络插件板(及
间接水冷冷板)
(申威 1600)主机网络插件板
(及间接水冷冷板)
272 块
6 主机网络电源板 (申威 1600)主机网络电源板 272 块
7 以太网插件装置 (申威 1600)以太网插件装置 34 块
8 维护插件装置 (申威 1600)维护插件装置 42 块
9 主机背板 (申威 1600)主机背板 34 块
10 顶层网络插件板(及
间接水冷冷板)
(申威 1600)顶层网络插件板
(及间接水冷冷板)
64 块
11 网络背板 (申威 1600)网络背板 8 块
12 国产主机辅助监控系
统设备
检测器、检测线、串口设备、转
接设备等
若干
13 数据传输线缆等耗材
与导轨等辅助设备
神威蓝光千万亿次计算机系统
机仓骨架及数据传输线缆、导轨
等辅助设备
若干
14 商用集群刀箱
浪潮 I5200,7U 高度,容纳 20
个计算节点;1×管理模块,含
共享 USB 端口;1×以太网交换
模 块 (SBM-GEM-X2C+ );1 ×
40Gbps IB 交 换 模 块
(SBM-IBS-Q3616);4×2500W
高节能冗余电源(3+1 冗余);
支持 IPMI 2.0,KVM-OVER-IP,
远程 power 控制;含上架导轨
30 套
15 商用集群刀片
浪潮 NX560T,2 颗 Intel Xeon
5675 CPU,36GB 内存,300GB 硬

600 台
16 NFS 服务器
浪 潮 VM200,2 颗 Intel Xeon
5650 CPU,36GB 内存,2 块300GB
硬盘,1 块 IB QDR 网卡,2 块
1000M 网卡,外挂一套 AS1000G3
盘阵、安装 Oracle11g 的ORC 软

2 台
17 MDS/IO 服务器
浪 潮 VM200,2 颗 Intel Xeon
5650 CPU,36GB 内存,2 块300GB
硬盘,1 块 IB QDR 网卡,2 块
1000M 网卡,外挂一套 AS1000G3
盘阵
50 台
18 SN/IO/IBA/FS 服务器
浪 潮 VM200,2 颗 Intel Xeon
5650 CPU,36GB 内存,2 块300GB
硬盘,1 块 IB QDR 网卡,2 块
1000M 网卡
60 台
19 FS 代理服务器
浪 潮 VM200,2 颗 Intel Xeon
5650 CPU,36GB 内存,2 块300GB
硬盘,2 块 IB QDR 网卡,2 块
1000M 网卡
68 台
20 DB/Xen/其它服务器
浪 潮 VM200,2 颗 Intel Xeon
5650 CPU,36GB 内存,2 块300GB
硬盘,2 块 1000M 网卡
49 台
21
联想X3550 M4
2*E5-2643 v4 6C/8*32GB R-ECC
2133MHz DDR4/4*240G
SSD/Intel千兆网卡*4/750W*2
43 台
22
联想X3850 X6
4* E7-4850 V4 16c/32*32GB
TruDDR4/6*300GB 15K SAS
14 台
23
惠普DL580G7
4 *XeonE7-4870(2.4GHz/10c)/
1024G DDR3 ECC/6 块 300G
15000 转热插拔 2.5" SFF 接
口热插拔 SAS 硬盘/配4 个
1200W 电源
4 台
24
惠普DL360P
2 *Intel Xeon E5-2643 v2 /
256G DDR3 ECC 内存/ 6 块
300G 15000 转热插拔 2.5"
SFF 接口热插拔 SAS 硬盘
8 台
25 近线磁盘阵列
浪 潮 AS1000,4台控制服务
器,SAS硬盘,12个1TB+4个2TB
28 台
26 浪 潮 VM200
2 颗 Intel Xeon 5650 CPU ,36GB
内 存 ,2 块 300GB 硬 盘 ,2 块
IB QDR 网 卡 , 2 块 1000M 网卡
35 台
27 图站1
惠普Z640
CPU:E5-2690v3*2颗
内存:16GB *8条
DVD 8X SMD 9.5 SF JB
硬盘 2TB*2块
显卡:Quadro M5000 8GB
4 台
28 图站2
惠普Z840
CPU:E5-2667v4
内存:16GB DDR4-2400R X 16条
DVDSM 9.5 Slim超薄
硬盘:PCI-E 固态512GB M.2 2280
PM961
机械硬盘 SATA 4TB
显卡:Quadro P6000 24GB
8 台
29 在线磁盘阵列
浪潮 AS1000G3,1 个扩展柜,FC
硬盘,24 块 450G 容量定制
50 台
30 曙光刀片服务器
至强 V3 计算节点:30 个刀片节
点,每节点配置:2 颗Intel Xeon
E5-2690 V3 十二核处理器,主
频2.6GHz,128GB 内存
至强 V4 计算节点:34 个刀片节
点,每节点配置:2 颗Intel Xeon
E5-2680 V4 十四核处理器,主
频2.4GHz,128GB 内存
7 套
31 曙光高速存储系统 Parastor 2.83PB 1 套
32 Oracle 数据库软件
现有 66 套ORACLE 数据库, 262
个应用服务器,其中 ORACLE 数
据库 11g RAC 版 8 套;ORACLE
数据库 10g RAC 版13套;ORACLE数
据库 9i RAC 版21 套,单机版15
套;ORACLE 数据库 8i 单机板9 套;
Weblogic7-11g 应用服务
器262 个。此外,还包括在服务期
内 新 上 线 的 数 据 库 和 应 用 服
务器。包括安装、配置、运行监控、
补丁收集及维护、故障解决、健康检
查、系统调优、知识转移、应急处理、
系统审计等,并建立日常服务文档
66 套
(六) 神威蓝光E型验证机计算机及辅助设备
包括国产神威E级原型系统计算机一套,存储系统一套以及系统运行相关的操
作系统及运行软件;详细设备清单如下:


设备名称 型号 数量
1 运算节点板
高性能申威26010众核处理器、72
片 DDR4 存储器芯
512 块
2 一级 switch 板
1 片网络交换芯片、高速连
接器、维护及电源部件、以太交换
器件、时钟器件等
128 块
3 运算网络正交中板 (申威 26010)运算网络正交中板 8 块
4 运算网络正交插件板
(申威 26010)运算网络正交插件
板 40 块
5 运算维护板 (申威 26010)维护插件装置 8 块
6 以太网交换板 (申威 26010)以太网交换板 8 块
7 顶层网络 I/O 板 (申威 26010)顶层网络 I/O 板 16 块
8 顶层网络正交中板 (申威 26010)顶层网络正交中板 1 块
9 顶层网络正交插件板
(申威 26010)顶层网络正交插件

9 块
10 顶层网络维护板 (申威 26010)顶层网络维护板 1 块
11 12V 主电源板
(申威 26010)12V 电源模块(及
电源模块热管导热板)
200 块
12 网络电源板 (申威 26010)网络电源板 80 块
13 运算节点冷板 (申威 26010)运算节点冷板 128 块
14 网络接口冷板 (申威 26010)网络接口冷板 128 块
15
运算机仓
(含主分水管、
辅助机仓
原型机运算机仓 1 套
(七)高速互联网络统
主机系统中的互连网络包括高速计算网络、高速存储网络和以太管理网络。
高速计算网络实现全机所有计算节点间的高速互连,采用InfiniBand QDR 技术,
提供处理器间的高带宽、低延迟通信功能。存储网络采用大容量风冷IB网络交换
机和主机通道适配卡,以满足构建PB级存储系统高带宽的网络互连要求。管理网
络由千/万兆以太网和维护监控专网组成。千/万兆以太网络采用多级分层,为国
产多核计算节点、商用辅助计算节点、IO 服务节点和其它各功能部件网络服务。
包含设备有核心路由器、核心交换机、接入交换机、防火墙、入侵检测系统、等
网络安全设备:
详细设备清单如下:
序号 设备名称 型号 数量
1 核心路由器
H3C SR6608,4 个 GE 光电复合,1 个
Console 口,1 个带外管理网口,1 个
AUX 口,2 个USB 接口,2CF 卡(内置 1
个,外置 1 个可选配)。
1 台
2 核心交换机
H3C S12508,正面提供 2 个主控板槽
位和 8 个业务板槽位,背面提供 9 个
交换网板槽位。机箱顶部有 1 个电源
框,3 个电源模块(冗余方式 2+1)2 个
横插式的风扇框。
1 台
16 管理节点 曙光I620-G20 8 台
17 高性能盘阵 华为高性能盘阵 1 套
3 IB 交换机
MELLANOX IS5600,648 个 QSFP 端口,
2 个 MGMT 管理口,18 个 spine,最多可
配 36 个Leaf,实际配置了 34 个Leaf 板,
10 个电源模块( 冗余方式为 8+2),8个
Leaf 风扇模块,18 个 Spine 风扇模块
(每个模块有 2 个风扇),以及各个
Leaf 板上包含的配套模块及光纤。
1 台
4
IB 交换机
Voltaire Switch 4700-D1B8,324 个
QDR 端口, 前面板: 9 个 sFB-4700
(Spine); 后面板: 18 个 sLB-4018
(Line),6 个电源模块(冗余方式为
3+3),1 个水平风扇单元,1 个垂直风
扇单元,以及各个 Leaf 板上包含的配
套模块及光纤。
1 台
5 接入交换机
H3C S5120-52C-EI,1 个 Console 口,
48 个 10/100/1000Base-T 以 太 网
端 口 , 4 个 复 用 的 SFP 千
兆 端 口
(Combo),两个扩展槽位。4 个风扇,
以及交换机包含的光模块及光纤。
19 台
6 接入交换机
H3C S5120-28C-EI,1 个 Console 口,
24 个10/100/1000Base-T 以太网端口,
4 个复用的 SFP 千兆端口(Combo),
两个扩展槽位。4 个风扇,以及交换机所
带的光模块及光纤。
1 台
7 接入交换机
H3C S5800-56C,1 个Console 口,1 个USB
口,48个10/100/1000Base-T 自适应以太
网端口,4个SFP+口,支持 1 个接口模块
扩展卡插槽(可以插入 SFP+ 模块、
SFP 模块或 SFP+电缆)。采用固定风扇,
以及交换机所带的光模块及光
纤。
2 台
8 接入交换机
H3C S5810-50S , 48 个
10/100/1000Base-T 以太网端口,2 个
复用的千兆 SFP端口(Combo),2 个10G SFP+
端口,1 个Console 口,1 个管理用以太
网口,1 个USB 口,两个电源插槽并自带
一个交流电源模块,以及交换机所带的
光模块及光纤。
9 台
9 接入交换机
H3C S5024E,24 个千兆以太网端口、4
个千兆 Combo口(与后 4 个千兆以太网端
口复用),1 个 Console 端口,以及交
换机所带的光模块及光纤。
1 台
10 接入交换机
H3C S1024R,24 个 10/100M 自适应以
太网端口,不可管理,以及交换机所带的
光模块及光纤。
1 台
11 万兆防火墙
天清汉马 USG-FW-12000EP,及配套光
模块及光纤。
1 台
12 办公防火墙
天清汉马 USG-FW-10000E,及配套光模
块及光纤。
1 台
13 WEB 防火墙 天清 WAG-1020,及配套光模块及光纤。 1 台
14 入侵检测
NS2200,授权 2 个电网口,2 个光网口
,及配套光模块及光纤。
1 台
15 天镜漏洞扫

CNS1000;v6.0.4.3,6 个电口,4 个光
口,及配套光模块及光纤。
1 台
16 VPN 网关
深信服 SAG-2100 和网御星云 VPN,及
配套光模块及光纤。
2 台
17 负载均衡 NSAE2500-NL,及配套光模块及光纤。 1 台
18 防病毒服务

360 企业版 1 台
19 流量分析服
务器
XFP-S200,及配套光模块及光纤。 1 台
20 IB 交换机
SX6025,36 个56Gbps 的IB 端口,交换容
量 4T,1 个电源模块,以及配套 56G
的光模块及线缆。
5 台
21 IB 交换机
SX6036,36 个56Gbps 的IB 端口,交换
容量 4T,1 个电源模块,配备管理模块, 以
及配套 56G 的光模块及线缆。
1 台
22 IB 交换机
SX6506,108 个FDR 端口,单端口速率56G,
3 个spine 板,6 个交换容量 12T, 冗余电
源模块,配备管理模块,以及配
套的 56G 光模块及线缆。
1 台
23 远距离互联
设备
Longbow E100,两个冗余电源模块,一
个 4*SDR IB 端口,一个 10GBASE-LR/LW
或者 OC-48 端口,两个 1000M 的 GE 端
口,一个 100M 的管理端口,包含整套
异地互联模块及线缆。
2 台
24 交换机
华 三 S5560-EI , 48 个
10/100/1000Base-T 自适应以太网端口,
4 个 SFP+端口,1 个管理口,包含配电
光模块及线缆。
6 台
25 交换机
华三 S5820X,24 个 SFP 端口,1 个管
理口,4 个 SFP+端口,包含扩展模块及
配套光模块及线缆。
2 台
26 交换机
华三 S3000 系列交换机,48 个千兆以
太网端口,4 个 SFP 千兆以太网端口。
2 台
27 交换机
华为 S5720 交换机,48 个SFP+端口,4 个
QSFP+端口,配备扩展模块,包含配
套光模块及线缆。
6 台
29 25G 交换机
Mellanox MSN2410,48 个 SFP28 端口,
8 个 QSFP28 端口,两个电源模块,包
含配套光模块及线缆。
3 台
30 100G 交换机
Mellanox MSN2700,32 个QSFP28 端口,
两个冗余电源模块,包含配套光模块及
线缆。
1 台
31
神威蓝光超
级计算机配
套网络
两个国产顶层网络机舱,8.5 个运算网
络机舱,1 套E 级原型机配套网络机舱,以
及配套网络辅助系统。
1 套
2、软件系统清单
(一)机房供配电系统
主机采用 DC300V 的高效供电模式和多层面冗余热备份技术。主机电源系统
分为机房配电和机舱内 DCDC 电源两大部分。
机房主机配电含 70KW DCUPS 19 台,500KVA 商用 UPS 两台, 以及相配套
的配电柜。运算节点机舱和顶层网络采用 DCUPS 供电,集群系统和外围存储由商
用 UPS 提供稳定可靠的 220V 交流。
主要电源系统的设备如: UPS系统设备(如直流UPS主机、配套电池组、整流
器、充电器、通讯管理抽屉、交流UPS主机、蓄电池组、逆变器、互投装置和系统
控制器等等);机房及配套区域配电系统配电设备(如低压配电柜、配电箱、机
柜内供配电设备、模块、日常用工作电源以及相应的配电线路等等);机房及配
套区域的防雷接地系统(如防雷及安全用电保护设备、模块,接地线、铜排、母
线等等);机房照明、办公和检修用电等设备。
(二)机房制冷及新排风系统
主机系统间接液冷系统采用捷丰模块式水冷机组 SRA131CF 并联,单模块制
冷能力 130KW,全机共 16 台,分成 4 组(注:实际使用 14 台,3 组运行,2 台
备份)。水泵共 6 个 CRN90 模块单元,分 1 组。高效过滤器 3 个,分1 组。
系统使用 1 个补水系统。为了提高冷水机组的制冷效率,室外机组增设冷水与空
气换热的支路。
在室外温度小于 8℃时,支路开通,冷水首先与冷空气交换热量,然后再与
制冷剂交换热量。在冬季的五个月里,可以降低制冷功耗 40 。
空调使用 STULZ ASD351A 型,制冷能力 30KW,共计 20 台,实现系统运行
环境保障和外围存储系统的冷却。
水冷系统、空调补水排水系统、精密空调系统的设备如:机房及配套区域内
的所有磁悬浮冷水机组、双模冷水机组、冷水管道、板式换热器、水泵、机房精
密空调、行间精密空调、新风机、排风机、风机盘管及新排风管道、管道阀门等。
(三)机房环控监控系统
环境监控系统主要包括主机(运算节点、IB 网络)监控系统、冷却与环境监
控系统、外围监控系统、DCUPS 监控系统、AC 电源监控系统等。主机监控系统主
要负责监测运算节点、IB 网络和维护系统的在位、电压、温度和工作状态等信息,
以及对这些目标进行远程控制和错误扫描;冷却与环境监控系统主要监测系统运
行的冷水机组、温湿度、漏水、空调、水泵、补给水箱、过滤器、喷淋开关以及
水温水压等环境信息;外围监控系统主要负责监测海量存储系统和商用辅助系统
中标准机仓内节点的电压、温度、风扇等环境状态信息;DCUPS 监控系统主要监
测 DCUPS 的整流器、充电器以及蓄电池的状态,并负责对 DCUPS 进行远程控制;
AC 电源监控系统主要监测AC 电源的功耗,开关的状态以及电缆温度等强电的状
态。这五部分监控系统提供了对全系统运行环境和运行状态的完整监控,为系统
的正常、安全运行提供了有力保障。
主要设备包括:监控交换机、MOXA检测模块、漏水检测系统:地板下漏水检
测线、漏水检测线控制器;环境监控系统:机房温度检测点、主机机房吊顶温湿
度检测器;综合布线系统:机房以太网布线、网线接头、机房IB网光线布线、光
线接头;通讯系统:电话线布线、电话插口、信息插口;门禁管理系统:消防门
禁、显示设备与场地监控设备。
(四)机房消防系统及设施
消防系统主要是为机房提供火灾监控与报警、自动灭火功能。主要优势: 多
级感应与探测(安全可靠性高)、手动与自动灭火(可操作性好)、七氟丙烷气
体灭火(喷洒时对设备损害污染小)。消防自动报警系统涵盖整个机房项目的所
有区域,七氟丙烷气体灭火系统采用有管网及无管网两种全淹没灭火方式,有管
网系统涵盖主机房、外围机房、UPS室;云计算机房和大数据与人工智能实验室机
房采用无管网装置。其他辅助区域及走廊采用大楼为机房预留的预作用喷淋系统。
系统主要设备如:机房及配套区域内所有管网、无管网的喷淋/气体/干粉灭
火设备设施(如七氟丙烷、二氧化碳等)、火灾自动报警设备、消防主机、配套
消防设备设施(灭火器、防毒面具、消防逃生指示灯等)。
(五)机房装饰装修系统及设施
建筑物装饰装修是机房建设最基本的物理基础设施,满足机房内主要设备的
功能间的建筑结构防火、建筑结构防水、建筑结构防静电、建筑结构屏蔽、建筑
结构保温、建筑结构承重、建筑结构饰面的洁净度等多个方面。
系统包括机房防火门、防静电地板、金属铝天花吊顶、墙面彩钢板、玻璃隔
断、地面保温材料、制冷系统管路保温材料及其他机房区域装修材料和相关设备。
(六) 国产高性能计算系统和商用辅助计算系统
国产高性能计算系统采用自研高性能通用多核处理器申威 1600 芯片构建,
峰值性能在 1PFlops 以上。系统包括约 8704 个运算节点。每个运算节点由一个
国产高性能申威多核处理器、DDR3 存储器芯片与系统接口构成。每个申威 1600
处理器由 16 个处理器核心组成,每 4 个处理器核心构成一个核组。256 个运算
节点组成一个高性能计算超节点,超节点内的运算节点实现无裁减全交叉互连。4
个 256 计算超节点物理上组装在一个计算机仓内,实现单机仓 1024 个处理器的
较高组装密度,在当前国内外超级计算系统中属于较高设计要求,单机仓浮点运
算能力可达百万亿次级。系统全机共 9 个国产多核计算机仓,峰值性能每秒 1100
万亿次以上浮点运算。
商用辅助计算系统配置 36 个刀片机箱,720 个瘦计算节点。每个刀片机箱
含 10 个双子星节点板,每个双子星刀片节点板包含 2 台瘦计算节点; 每 台 瘦
计 算 节 点 含 2 颗 Intel Xeon X5670 六核处理器,主频2.93GHz(12MB
三级缓存,最高支持 1333MHz 内存频率,6.4 GT/s QPI);36GB DDR3 ECC 内 存 ;
1 个 InfiniBand QDR HCA 卡 ;1 块 500GB 、 7200 转 SATA 接口热插拔硬盘;
2 个 Gigabit Ethernet 端口;支持 IPMI2.0 标准的管理接口。计算节点间通过
一套双向 80Gb/s 的 Infiniband 高速网络交换机互连。
(七)高速互联网络系统
主机系统中的互连网络包括高速计算网络、高速存储网络和以太管理网络。
高速计算网络实现全机所有计算节点间的高速互连,采用 InfiniBand QDR技术,
提供处理器间的高带宽、低延迟通信功能。多核计算网络采用统一的胖树型互连、
分层互连和带宽配置的策略,适应不同应用需求和兼顾工程可实现性。网络由计
算交换模块,顶层交换机两种网络设备组成,两种设备间采用统一的胖树型互连
结构,实现多核计算系统中8704 个计算节点 68 个 I/O 代理节点间的高速互连。
商用集群计算系统的 35个刀片机箱都配置了 36 口的 Infiniband 交换机, 作
为商用集群计算系统计算网络的边缘交换机,此外,还配置了 1 台高性能648 口
Infiniband QDR 交换机作为网格骨干交换设备,所有交换机的端口单向速率为
40Gb/s。顶层互连网络把多核计算网络、商用集群计算网络连接在一起,实现多
种计算资源间的高效消息传递。顶层互连网络拟采用一台对称胖树型结构的 324
端口InfiniBand QDR 交换机实现。
存储网络采用大容量风冷 IB 网络交换机和主机通道适配卡,以满足构建PB
级存储系统高带宽的网络互连要求。同时充分考虑其它现有网络(如FC)的优势和
特点,在网络设计中把多种网络结合起来,充分利用各种网络的优势, 达到性能、
价格、应用、维护、复杂度等各方面的平衡设计,实现大规模高性能的网络互连,
并实现多种网络协议间的互连互通。存储网络负责系统服务节点与后端海量存储
系统之间的互连,支持高性能的存储通信及通用的系统通信,存储网络连接着 84
个存储服务节点、4 台高性能网络存储设备、50 台光纤存储设备、10 个应用节
点、4 台元数据服务器、82 台数据服务节点、8 台应用 IO 代理及 IBA 子网管
理节点。存储网络采用高效标准的 IB 协议进行互连,采用一台对称胖树型结构
的 324 端口交换机实现。
管理网络由千/万兆以太网和维护监控专网组成。千/万兆以太网络采用多级
分层,为国产多核计算节点、商用辅助计算节点、IO 服务节点和其它各功能部件
网络服务。维护监控专网则负责对包括以太网络在内的所有功能部件的维护,并
完成对系统运行环境和状态的监控与管理。系统配置1台核心万兆交换机。系统中
的多核运算节点机仓通过多台48口底层交换机汇聚后利用10个万兆上行线路级联
至核心交换机;系统中的刀片机群通过2台48口千兆交换机汇聚后利用8个万兆上
行线路级联至核心交换机;系统中的16 台高性能机架服务器使用万兆线路直连到
核心交换机;系统中的其它标准节点通过多台 48 口底层交换机级联至核心交换
机。
(八)机房海量存储系统
实现面向用户统一的存储资源的分配和管理,系统由轻量级文件系统和后端
全局文件系统组成。其中全局文件系统由客户端、元数据服务器、和对象存储服
务器组成。通过面向对象的存储技术实现的分布式并行文件系统, 为用户提供单
一的文件目录树结构,方便用户对系统的理解和使用。
海量存储管理系统提供多种数据存储服务和管理功能。通过存储虚拟化技术
实现多种存储资源的高效整合,实现面向用户统一的存储资源的分配和管理。并
在此之上,采用面向对象的存储技术实现高效的分布式并行文件系统SWGFS,为用
户提供单一的文件目录树结构,方便用户对系统的理解和使用。为了满足超算中
心的异构高性能计算的需求,系统通过轻量级文件系统LWFS给高性能计算提高数
据服务。
1、存储管理系统
存储管理系统提供对于存储系统设备、存储资源的管理和监控服务。存储系
统设备管理主要包括对于存储系统服务器、网络、存储设备的管理,对于存储系
统的服务器,提供服务器重置、服务器提供的存储服务的启动和停止等;对于存
储系统网络提供网络拓扑管理;对于存储设备提供设备配置、逻辑卷管理功能。
系统监控服务提供对于服务器,网络,存储设备运行状态的实时监控视图,例如
服务器的负载检查和统计,网络的运行状态和存储设备的日志事件等。
存储管理系统还包括数据迁移系统,负责数据在不同存储分区之间的迁移管
理。数据迁移的具体含义是:对于需要永久保留且不经常访问的用户数据,为了
防止其占用宝贵的在线存储系统空间而将其迁移到近线存储存储系统的需求,待
需要时再将其迁移会在线存储系统,此外数据迁移还包括对于处理其它用户数据
的策略,例如数据删除、数据压缩等,数据迁移有效地防止了空间的浪费,提供
存储系统的资源利用率。数据迁移管理子系统主要包括数据迁移引擎功能,主要
包括管理策略定制功能,为用户提供方便的迁移策略定制接口,同时提供数据迁
移的报表。此外存储管理系统还包括数据备份系统,负责对于重要用户数据的备
份。
2、LWFS轻量级文件系统
轻量级文件系统由部署在计算节点的客户端、部署在存储服务节点的服务端、
连接管理以及数据传输构成,还具有一些增强功能的可选组件。LWFS 的客户端包
括FUSE 内核模块、LWFS 客户端程序两个部分。
3、SWGFS分布式文件系统
SWGFS 由元数据服务器、数据服务器和客户端组成。SWGFS 具有高效的数据
存储能力,它采用元数据和数据相分离的机制;采用资源池pool 机制对存储资源
进行管理和分类;具有在线可扩展能力;具有高可用性;采用分布锁管理机制较
好地解决了传统分布式文件系统数据存储的一致性问题。
后端文件系统SWGFS 软件主要分成三部分, 分别分布在不同的功能节点:客
户端文件系统(CFS),分布在数据服务节点(IO 代理节点)和数据导入导出节
点上;元数据服务器(MDS),分布在负责元数据管理的MDS 节点之上;数据服务
器(OSS),分布在负责管理文件数据的数据服务器(I/O 节点)上。
存储服务节点(I/O 代理)通过客户端来使用全局文件服务,和数据服务器
交互获得文件数据,和元数据服务器交互进行名字空间操作。
元数据服务器端供元数据服务。主要记录关于组成文件系统的文件和目录的
管理信息,记录关于全局文件、目录和相关状态的信息等等。元数据服务器维护
文件系统元数据所有改变的日志,根据已写到日志的变化来更新文件系统。如果
一个系统故障发生了,通过从元数据日志重放完成的事务,可以很快地恢复文件
系统一致性。
文件系统元数据和文件数据是分开存储的。这种设计将文件系统的更新划分
为两种不同类型的操作:元数据服务器上文件系统元数据的更新和数据服务器上
实际文件数据的更新。元数据服务器进行文件系统名字空间操作,这样就不会影
响到仅进行实际对象数据操作的性能。一旦MDS 识别了一个文件的存储位置,那
么所有后来的文件I/O 将在客户端和OST 之间进行。用元数据服务器管理文件系
统的名字空间为性能最优化提供了许多直接的机会。
数据服务器端通过输出卷提供数据服务。存储服务器处理客户端数据请求和
下层物理存储设备间的交互。该存储设备一般是指基于对象磁盘(OBD),但实际
上并不限于磁盘,因为数据服务器和实际存储设备间的交互是通过底层文件系统
和设备驱动执行的。
(九)大规模并行操作系统
含作业调度系统、监控管理系统、用户管理系统、计费管理系统等。
采用基于虚拟化控制架构实现大规模系统的管理与控制,通过虚拟化资源描
述、管理和调度技术,实现多种类型资源的统一分配管理和使用;采用层次架构
实现支持数十万进程的高效用户作业管理系统;基于虚拟化平台实现一体化系统
管理,实现高可用基础架构和动态高可用管理。
1、虚拟化控制管理系统
控制管理系统采用虚拟化设计,将主要的管理控制系统虚拟化,构建统一的
虚拟化管理资源池(包括应用虚拟化资源池和管理虚拟化资源池),按需部署操
作系统和系统软件,实现资源复用,降低管理系统资源规模,构建集中的虚拟管
理中心进行统一管理。
系统控制管理和控制采用层次式并行控制管理设计,商用子系统采用标准化
软件,支持标准化商业应用;国产子系统采用自研分布式层次作业与资源管理系
统,提升系统管理和控制的高效性、可扩展性。
2、作业与资源管理
系统采用基于中间件的层次式系统架构,提供统一的标准化用户接口, 实现
系统资源的统一监控和管理、作业的统一调度,方便系统的管理和使用。根据国
产子系统和商用子系统的实际业务需要,分别在相应的子系统上针对性的部署相
应的作业与资源管理插件系统,通过作业管理中间件平台进行有效集成。
作业与资源管理中间件平台采用自行设计开发的SMART ( Scalable
Management, Anlysis, and Report Tools)管理系统,该系统面向超大规模系统,
提供高度可扩展的标准化资源分配管理、作业调度管理、以及图形化的运行分析
与统计报表系统。自研作业管理中间件平台部署在外围通用管理系统中,包括:
控制台、应用节点、管理节点等系统上,实现统一管理平台的功能;面向商用子
系统的HPC 标准作业控制插件,则主要运行于系统控制台和各个运算资源上;自
研层次是控制管理插件部署于管理节点、运算节点上,中间件平台与两类控制插
件之间通过接插件环境进行集成。在这种管理模式下,国产子系统和商用子系统
是以不同分区的形式进行管理和使用。管理员使用统一的工具配置相应属性的分
区,用户则使用相同的作业和资源。管理接口使用环境,从而实现系统统一管理
和分区域使用。
3、大规模层次式控制管理
系统采用层次架构实现能够支持数十万进程的高效用户作业管理系统。作业
管理充分利用并发的高效性,采用多级并行、层次分撒的批量聚合并行控制架构,
解决并行控制中单一层次多对一带来的热点和瓶颈,解放了作业主进程的管理负
担,消除了对系统中大量端口以及CPU 资源的占用,也减轻了作业总控的压力;
动态选择负载最轻的资源,动态自适应地构造作业层次并行控制架构,实现数十
万进程大规模并行作业的快速、高效的启动和运行控制,确保提供作业管理与控
制的实时性和高效性,同时提高了系统机时的有效利用。
资源管理采用动态结合冗余通路技术的层次并行控制技术。采用多层次并行
管理技术化解控制热点和压力,实现控制的高效,同时考虑到控制通路中可能因
为节点或者网络故障以及可能产生的局部热点,在控制关系中构建冗余的控制通
路,智能匹配最佳的控制关系和通信路径,实现系统快速、可靠与自适应的管理
结构,满足数万节点规模的大规模系统的高效并行监控与管理。
4、一体化监控管理
1)集中监控平台。系统监控平台实现系统运行过程中软、硬件资源实时状态
的采集、分析、处理,为管理员提供简洁、直观的可视化视图。监控平台以WEB 方
式呈现,主要面向管理员,是系统管理的中间件平台,提供各个功能模块的接插
件入口,支持动态扩展。系统监测在一个界面上可以监控到所有软硬件的健康状
态。
2)状态监控。状态监控提供实时全方位细粒度的监控,包括各类节点、网络、
存储等各个目标设备的健康状况,同时提供环境、温度、水电等系统的监测。提
供实时故障告警,通过并行分布式数据采集、层次化存储和控制相结合方式保证
了管理和监控的效率。
3)性能监测。性能监测提供系统中节点、交换机、盘阵等设备的使用情况、
详细数据指标等,并保存历史记录。
4)网络管理。提供以太网和IB 网络管理,以太网监测管理实现以太管理的
实时状态与拓扑监测;IB 网络管理实现对系统中所有IB 交换机、含IBA 卡节点
的设备的可用性状态管理,拓扑与性能管理等。
5)流程化系统开关机服务。基于系统维护、IPMI、ILO、虚拟化服务接口等
协议实现对硬件节点资源的流程化远程开关机管理,降低系统检修维护等的复杂
度,实现易管理,提升好用性。提供命令行与图形界面两种并行开关机控制方式。
6)资源与队列配置管理。队列管理提供用户上机环境的构建与配置服务,为
管理员提供系统全局队列的配置管理,提供资源管理功能,并提供系统全局配置
状况与实时使用状况视图。
7)虚拟化管理。通过集成的虚拟管理中心,实现系统虚拟化环境的动态部署、
启动、挂起与恢复等管理控制功能。
8)系统运营报表。面向系统运行管理,以图形化报表风湿提供系统运行历史
的统计分析。系统提供日志信息,包括系统开机、关机等关键性日志信息。从资
源使用角度,统计某时段内全系统或某个用户资源使用情况,包括资源占用量/率、
资源使用量/率等。从作业角度,统计某时段内系统或用户作业运行情况,分析作
业运行及机时消费情况。提供系统的运行维护状况, 提供指定时间段内的系统使
用趋势分析,为掌控系统的运行、维护、使用状况,提供有力的记录和分析系统。
5、用户管理
用户管理采用统一系统架构,以NSS/LDAP 为基础,采用分层冗余的2 级目录
服务器体系架构,实现全系统统一的单点用户管理,使用户在任何地方都可以用
同样的用户名和口令进行登录,用户HOME 与全局视图都相同,并实现用户管理的
全局一致性。提供用户组管理、用户管理、角色管理、限额管理等功能。
6、计费管理
面向计算中心的管理需求,提供基础信息的自动登记,以及相关信息的灵活
配置功能,提供二次开发接口,使计算中心可以根据实际需要,开发相应的计费
系统,定制灵活的计费策略、付费方式、优惠信息,实现计费账单查询、报表生
成等,可以对各用户使用情况实施计费,为系统资源的高效使用提供帮助。
提供包括课题名称、占用计算资源、课题规模、运行起始和终止时间等记账
信息;提供系统存储资源的实时使用情况查询;提供计费模式、费率、优惠时段
等信息配置功能和接口,提供上述信息的访问接口。
(十)曙光商用集群及存储系统
刀片计算系统由IBM的SYSTEM X服务器(作为管理节点)、曙光刀片服务器组
成。管理节点负责整个集群的监控,用户的统一管理,集群文件共享情况的管理,
集群任务的分发以及调度。系统配备并行存储IO节点,存储量为165TB。
集群使用Gridview 4.0(HPC版)集群管理软件来实现对集群运行监控和作业
调度。刀片节点通过一台108口 56Gb FDR Infiniband交换机连接, 管理节点、
存储IO节点连接到另一台36口Infiniband交换机。两个交换机间通过FDR
Infiniband线缆进行互联。存储系统规模 4oPara+33oStor。部署Parastor文件系
统。
(十一)GridView作业调度系统
Gridview是一款面向集群管理与高性能计算的综合系统。拥有强大的负载管
理平台,实现对集群的安装部署、配置、状态监控、告警、报表分析等运营管理
工作;实现对高性能计算资源的调度分配、作业提交、作业管理、状态监控,统
计记账等。支持多种类型的应用软件安装,如制造设计,科学仿真计算软件等。
提供集群一体化解决方案。
通过GridView可以管理应用,配置系统资源分配,监控计算资源状况, 统计
分析作业记账报表。分析系统运营过程中确认是否有资源过载情况发生,为系统
扩展和升级提供详尽的数据支持。
功能有作业管理、作业热图、计算结果管理;配置计算资源如申请管理、
License管理、用户设置、队列管理、调度器管理;分析集群负载、应用使用情况
如报表计费。集群监控,安装应用软件,集群中进程,文件, VNC图形管理。配
置整个系统的信息如用户管理,消息管理,日志审计,系统操作设置,故障单等。
(十二)Parastor存储系统
ParaStor云存储系统采用了代表存储技术、网络通信技术以及数据管理技术
发展方向的并行体系架构,是一款面向海量非结构化数据处理、拥有自主知识产
权的高端存储系统。
ParaStor系统包含四类组件:索引控制器oPara、数据控制器oStor、管理控
制器MGR和客户端驱动oApp。
索引控制器oPara:用于管理存储系统的所有索引数据和命名空间,对外提供
单一的全局映像,每对索引控制器以Active-Active方式运行;
数据控制器oStor:用于提供数据存储空间,并实现文件的并行存取, 支持
副本和N+M纠删码;
管理控制器MGR:两台管理控制器以Active-Standby方式运行,提供统一的控
制管理界面,管理员通过该节点管理整个存储系统;
客户端驱动oApp:安装在应用服务器上的客户端驱动,向上层应用提供POSIX
访问接口。
(十三)高效能并行编程模型及其并行程序开发环境
针对主机体系结构特点,高效能的并行编程模型,解决轻量级并行描述、计
算与通信的抽象描述、新型语言与传统编程方式协调发展的难题;支持OpenMP、
MPI、UPC 和并行 C,支持共享编程模型、消息传递编程模型以及灵活的混合编程
模型,满足各种类型应用的需求。
支撑用户设计、编译、调试、运行、性能监测分析全过程的开发环境, 有效
提高用户的开发效率和程序效率。
 
 网站首页 | 会员类别 | 入网流程 | 汇款方式 | 版权声明 | 友情链接 | 设为首页 | 收藏本站
山东运营中心联系电话:(免长途费) 0531-82397489 13685321419 业务咨询QQ:373387742    495360336    
华中招标网旗下网站:河南招标信息网  山东招标采购网  湖北招标网   陕西招标信息网
版权所有© 2006-2008 山东招标采购网 山东招标网 All Rights Reserved 豫ICP备09025071号-2  

豫公网安备 41010502002889号


山东招标采购网 郑州恒方电子技术有限公司 版权所有。未经本站允许,不得擅自转贴或复制本站信息