IT运维管理规范教材
第一章、 总则
一、为加强 IT运维管理能力,保障业务系统正常、高效、安全运行,根据行业规范,并结合 IT运维工作实际情况,制定本规范。 二、 IT运维包含以下七个子项: 1、业务应用系统运维;
2、服务器、数据库、中间件运维; 3、
机房及弱电
4、网络系统运维; 5、计算机终端运维; 6、视频会议系统运维; 7、信息安全运维。
三、IT运维管理的主要内容包括:运维资产管理、运维人员管理、运维流程管理、运维安全管理和运维绩效管理等。
1、运维资产管理是对已正式投入使用的信息化基础设施、软件等资产的动态更新和配置管理。
2、运维人员管理是对参与运维工作的人员的资格、能力、运维行为以及其对应的运维流程和权限的管理。
3、运维流程管理是对资产及对应运维人员的事件、问题、变更等运维工作流程权限进行设计规划和实施过程。
4、运维安全管理是在运维过程中为保障信息的机密性、完整性和可用性而对信息安全的职责、制度、标准和流程的管理。
5、 运维绩效管理是科学评价运维过程和运维结果,发现问题并提出改进措施。 四、 IT运维管理原则:
1、标准化:通过制定、发布和实施IT运维标准,达到统一管理的目标;
2、痕迹化:通过IT运维综合管理平台的使用体现运维管理工作的痕迹化原则;
3、平台化:使用IT运维综合管理平台,作为运维管理的集中支撑平台,提供量化的运维管理数据便于刻画和评价运维工作;
第二章、 流程管理制度
一、所有工单的创建、处理应符合规范要求。工单的填写必须包含:故障或问题的现象、故障问题根源分析、故障问题处理方案、故障问题处理结果。工单的处理还必须包括 :运维项及资产关联、故障问题严重等级、重要处理工程的更新说明、升级关闭的理由。 二、对于需要多个外协单位协同处理的综合故障排除或运维任务,由运维总协调人通过协同工单协调外协单位共同处理。
三、运维人员有责任及时创建工单、处理和关闭工单,从而尽量真实的反映运维工作的时效性。对于有承诺的运维项或信息系统资产,工单的处理时间必须符合时间。对于超过承诺范围的工单,IT运维综合管理平台将通过逐级告警的机制引入更高层面的介入以促进运维管理服务水平达到要求。
四、对于公共基础设施的信息系统,所有变更必须按照变更申请、
变更测试评估、变更审批、变更实施和评估的流程进行。涉及到费用的信息系统变更也需要通过变更审批流程来实施。变更应做到有计划,有方案,有评估,有应急预案。从而降低运维变更所产生的风险。公共基础设施的变更还必须通过公告形式预先通知相关单位运维人员,以便及时进行必要的应急处理。
第三章、 运维资产管理
一、信息系统资产管理是运维管理工作的基础。运维工作、运维人员以及运维过程的管理都应该围绕信息系统的资产进行。 信息系统资产的在IT运维综合管理平台中录入和动态维护是实现信息化、流程化运维综合管理的基础工作。信息系统资产按照七个运维子项进行分类录入和管理。
二、资产管理员负责资产信息的清理、录入、资产状态的变更审核;各运维项负责人负责对应运维项资产信息的录入和维护工作。共同建立完善的资产信息数据库,并与财务部门统计数据保持一致。录入的资产应尽量反应到本单位的详细拓扑图,拓扑图应根据变化及时更新。
三、信息系统资产属性包括资产的基本属性、运维属性和财务属性。资产管理员及运维项负责人应及时有效的对资产属性进行维护和管理。
1、基本属性描述资产的固有特征信息,包括资产类别、名称、型号、厂商、资产编号等信息。资产管理员及运维项负责人应IT运维综合管理平台中维护管理最新的资产基本属性。
2、运维属性描述除基本属性外,运维工作关心的资产信息。如资产的物理位置、资产运维负责人及联系方式、资产状态(运行、维修、报废等)、资产的技术属性(如软件版本,运行参数,硬件配置参数等)。
3、资产的财务属性描述财务部门关心的信息。如采购合同号、供应商名称、保修期限等。
四、涉及到资产的责任人、技术属性、物理位置、所属部门、状态等的变更应通过变更流程审批后完成。
五、所有运维工作应在IT运维综合管理平台中与资产进行关联,建立完善的关联资产运维信息数据库。
第四章、 运维人员管理
一、明确运维管理职责,定期制定运维管理岗位流程规范,制定运维人员专业能力评定标准,组织实施运维人员能力培养、考核和准入等工作。
二、根据运维管理岗位职责,及时梳理制定相应的运维人员工作流程权限并实施。通过监督管理使运维人员的工作和行为符合运维管理技术规范。
三、根据运维岗位职责特点,制定运维人员接替方案,在人员岗位职责发生变化时及时更新流程和相应权限。
四、运维人员通过建立人工和自助服务台受理业务部门的运维事件。运维人员的业务部门的事件处理应接受业务部门的服务评价。通过运维评价实现闭环的运维工作管理。
五、加强运维人员的管理工作。运维人员对本单位信息安全负有责任,应与运维人员签订保密协议,防止其对本单位文件、数据的擅自复制、修改和带离现场。运维人员发生变化的应对其运维账户权限及时进行变更或删除
第五章、 考核与奖惩
一、考核主要采用定性的指标和定量的指标相结合的考核原则。考核周期分为月度、季度和年度考核。对运维体系的考核结果进行不定期通报。定量指标包括资产信息录入完善程度、工单及流程规范性、工单平均处理时间、业务部门满意度、信息系统可用性等关键数据。
第二部分 IT运维技术规范 第六章、 术语定义和缩略语
1、 IT运维工作
IT运维工作是指综合利用各种IT运维支撑工具,提供的确保IT系统正常、安全、高效、经济运行的服务。
2、 IT运维管理流程
IT运维管理流程是指为了支持 IT运维工作的实现和提供,以确定的方式执行或发生的一系列有规律的行动或活动。
3、 IT运维人员
参与 IT运维工作的各级人员,IT运维人员根据管理权限、负责
运维工作的范围的不同,划分为不同的运维角色。
4、 IT运维管理工具
IT运维工作中使用的对不同运维项进行监控的工具,目前包括网络基础设施监控工具、业务应用监控工具、机房监控工具、计算机桌面安全管理工具。
5、 运维项
根据 IT运维实际情况,信息系统运维对象统一划分为服务器/数据库/中间件系统运维、计算机终端运维、机房及弱电系统运维、网络系统运维、业务应用系统运维、视频会议系统运维、信息安全系统运维七个类别。所有信息系统运维对象应归类在这七个类别中来进行运维管理。
由信息系统运维对象分类形成的七个类别,可以分别设定为不同的运维项。运维项包含了对信息系统资产的归类及授权的维护管理工作分类。运维管理人员根据授权维护管理自己范围的信息系统及对应设备资产。运维项必须遵照本标准规定的运维对象类别进行分类归口。
6、 运维质量保证(SLA)
运维质量保证(SLA)是运维主管或运维管理员根据本地实际情况和运维对象的重要性,规定的运维服务质量承诺。即代表完成某个运维对象的某种运维任务所限定的时间。通常为故障处理恢复的完成时间。各分公司可对不同的运维对象,相应的运维人员制定不同的运维质量保证参数,超过运维质量保证的任务可能导致告警/运维工作考核不合格/或者按照相应商务合同规定下的处罚。
7、 ISO
International Organization for Standardization国际标准化组织 。
8、 IT
Information Technology的缩写,意为信息技术 。 9、 信息系统
信息系统是指在商业系统运行的各种信息化设备、软件系统、终端以及支撑这些设备、软件系统、终端运行的其他设备系统(如机房、弱电等)。主要由计算机硬件、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。
10、 ITIL
Information Technology Infrastructure Library的缩写, 意为IT基础架构库 ,是CCTA(英国国家计算机和电信局)开发的一套IT服务管理标准库,旨在提高IT资源的利用率和服务质量。之后演变成为ISO20000。 目前已经成为业界通用的事实标准。 是业界普遍采用的一系列IT服务管理的实际标准及最佳实践指南,包含了如何管理IT基础设施的流程描述;它以流程为向导、以客户为中 心,通过整合IT服务与企业服务,提高企业的IT服务提供和服务支持的能力和水平。ITIL可以引导组织高效和有效地使用技术,让既有的信息化资源发挥更大的效能。
第七章、 运维管理工作技术规范总则
随着信息化建设的不断深入, IT运维工作越来越重要,建立科学规范、协同高效的信息化运维管理体系,是行业信息化上水平的迫切要求,为此需要按照“统一标准、分级负责、逐级考核、流程规范、高效运行”的原则,确定运维管理职责,梳理运维管理流程,制定运维管理规范。
一. 运维工作的总体目标
IT运维的总体目标就是要树立面向业务服务的IT运维管理理念,建立科学合理的绩效考核指标,向精细化的运维管理转变;实现集中统一的IT运维管理模式;建立统一的、高效、智能的IT运维综合管理;建立规范标准的IT运维管理流程,实现由职能管理向流程管理转变;应用先进的、实用、高效的IT运维管理工具,实现被动管理向主动管理转变。
通过IT运维综合管理制度的实施,按照ITIL运维管理最佳实践标准,结合实际和需要,遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则,建立一套融合组织、制度、流程、人员、技术、工具的IT运维管理体系,制定规章制度,规范管理流程,明确职责分工,强化技术支撑,实现对IT系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中的各类隐患和故障,确保信息系统的正常、稳定、高效运行。
二. 适用范围
本规范面向 IT运维各级运维管理人员设计,适用范围包括各级运维人员,以及参与IT运维外包的外协公司有关人员。
三. IT系统运维项分类
根据信息系统实际情况,信息系统运维项统一划分为: 1、服务器/数据库/中间件系统运维。 2、计算机终端运维。 3、机房及弱电系统运维。 4、网络系统运维。 5、业务应用系统运维。 6、视频会议系统运维。 7、信息安全系统运维。
所有IT信息系统运维对象应归类在这七个运维项类别中来进行运维管理。
四. 运维工作等级划分及SLA定义规则
IT运维综合管理通过流程进行处理的工作(包括事件,问题,变更,以及任务等),都应当根据工作性质赋予相应的工作等级。同时,根据不同运维项的不同工作等级对信息系统的重要程度,还应当对每个运维项对应的工作等级赋予相应的SLA。
IT运维工作(对应IT运维综合管理平台中的事件、问题、变更工单)分为严重、重要、一般三个级别。运维人员在IT运维综合
管理平台中应当根据运维项的特性确定工单的等级。
运维工作(工单)的等级划分原则如下:
1、严重等级。对核心业务或工作造成严重影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为严重等级。例如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等中断或严重影响正常业务的事件、问题或变更工作(工单)确定为严重等级。各运维项的严重监控告警将自动产生严重等级的工单,并且工单等级不能更改。
2、重要等级。对业务部门或工作造成重要影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为重要等级。例如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等不稳定或存在较大隐患的事件、问题或变更工作(工单)确定为重要等级。各运维项的重要监控告警将自动产生重要等级的工单,并且工单等级不能更改。
3、一般等级。对业务部门或工作不会造成较大影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为一般等级。例如:普通计算机终端故障、局部接入网络的异常、以及各运维项一般性监控告警等产生的事件、问题或变更工作(工单)确定为一般等级。
IT运维工作必须根据各运维项特性,对不同等级的事件、变更工单定义相应的SLA数值。SLA数值代表处理相应事务(工单)时的最长时间要求(以小时计)。IT运维综合管理平台将对超过约定SLA的工作(工单)产生告警,并统计运维人员工作(工单)超过约定SLA的数量。
SLA的超时告警将按照约定的阀值自动通过通告及短信/邮件等方式通知上级运维管理人员。SLA的超时告警通常设置一级通告告警、二级通告告警和三级通告告警三个级别。一级通告告警通常设定为通知监理公司或负责运维项的 运维管理人员;二、三级通告告警通常设定为通知负责运维项的 运维管理人员或更高级别的运维管理人员。
可按照如下示例规则,根据所属运维项特点制定约定的SLA要求:
事件工作(工单)等级 变更工作(工单)运维项 及SLA (小时) 严重 计算机 信息安全 网络系统 服务器/数据库/中间件 应用系统 2 72 2 24 2 2 4 等级及SLA (小时) 严重 24 48 24 机房及弱电 视频会议系2 1 24 1 统 五. 运维管理工作的考核KPI制定
根据目前信息系统结构和组织架构,制定统一考核KPI指标,以促进信息系统运维管理工作的规范化,信息化,主动化。
运维管理工作考核KPI分为如下几类: 1、运维平台的使用及工作量。
各类运维对象资产录入数量,事件/问题/变更工单数量,知识库贡献数量。
2、信息系统运行可用性。
各类运维对象的整体可用性,单位设备/系统故障次数。 3、运维管理工作质量。
平均工单处理时间(事件/问题/变更),平均故障恢复时间。 4、主动运维。
KPI绩效考核是一项综合性的考核。需要全面、灵活考核运维人员对事件、问题、变更的处理情况,同时不同的KPI考核指标在不同的运维项中的权重并不相同。
针对不同运维项的特点和重要性 ,可按照如下规则制定针对具体人员的KPI考核指标:
1、服务器/数据库/中间件系统运维。 针对运维人员绩效考核指标:
➢ 系统可用性 ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ SLA通告统计
针对外协人员KPI绩效考核指标: ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 处理的工单数量 ➢ 工单的平均处理时间 ➢ 知识库贡献 ➢ 配置项录入数量 ➢ SLA超时工单统计 ➢ SLA通告统计
在服务器/数据库/中间件系统运维的实际工作中,对运维人员应该以提高系统的可用性为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比等KPI所占考核权重应该较高; 对外协厂商应该以平均故障恢复时间、工单数量,SLA符合情况等为主,进行综合考核。 2、计算机终端运维。 针对运维人员绩效考核指标: ➢ 平均故障时间 ➢ 用户满意度
针对外协人员KPI绩效考核指标: ➢ 处理的工单数量 ➢ 工单的平均处理时间 ➢ 知识库贡献 ➢ 配置项录入数量 ➢ SLA超时工单统计 ➢ SLA通告统计 ➢ 用户满意度
在计算机运维的实际工作中,对外协厂商应该以处理工单数量、平均故障恢复时间、SLA和用户满意度等为主进行综合考核。 3、机房及弱电系统运维。 针对运维人员绩效考核指标: ➢ 可用性统计 ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ SLA通告统计
针对外协人员KPI绩效考核指标: ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 处理的工单数量 ➢ 工单的平均处理时间 ➢ 知识库贡献
➢ 配置项录入数量 ➢ SLA超时工单统计 ➢ SLA通告统计
在机房及弱电系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以平均故障恢复时间、工单数量和SLA等为主,进行综合考核。
4、网络系统运维。
针对运维人员绩效考核指标: ➢ 可用性统计 ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ SLA通告统计
针对外协人员KPI绩效考核指标: ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 处理的工单数量 ➢ 工单的平均处理时间 ➢ 知识库贡献 ➢ 配置项录入数量 ➢ SLA超时工单统计
➢ SLA通告统计
在网络系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工单数量等为主进行综合考核。 5、业务应用系统运维。 针对运维人员绩效考核指标: ➢ 可用性统计 ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 用户满意度 ➢ SLA通告统计
针对外协人员KPI绩效考核指标: ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 处理的工单数量 ➢ 工单的平均处理时间 ➢ 知识库贡献 ➢ 配置项录入数量 ➢ SLA超时工单统计 ➢ SLA通告统计
➢ 用户满意度
在业务应用系统系统运维的实际工作中,应该以保证系统的正常运行和用户的正常使用为主,所以系统可用性指标、变更工单处理时间,主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工单的平均处理时间、工单数量及SLA等为主,进行综合考核。 6、视频会议系统运维。 针对运维人员绩效考核指标: ➢ 可用性统计 ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 用户满意度
针对外协人员KPI绩效考核指标: ➢ 平均故障时间 ➢ 平均故障恢复时间 ➢ 处理的工单数量 ➢ 工单的平均处理时间 ➢ SLA超时工单统计 ➢ SLA通告统计 7、信息安全系统运维。 针对运维人员绩效考核指标:
➢ 安全事件工单数量
➢ 平均安全策略变更工单处理时间 ➢ 安全定期巡检任务完成情况 针对外协人员KPI绩效考核指标: ➢ 安全事件工单数量 ➢ 处理工单的平均处理时间 ➢ SLA超时工单统计 ➢ SLA通告统计
六. 资产配置管理规范
1、所有信息系统设备资产(包括在运行的设备/软件,备件,暂停使用的设备/软件)都需要录入运维平台。桌面计算机安全管理工具,网络监控工具,服务器/数据库/中间件监控工具将把被监控的设备/系统资产信息同步到运维平台中。资产管理人员需要录入相应的管理信息或商务信息。另外,对于不被监控的设备或系统,资产配置管理人员应将其手工录入 IT运维综合管理平台。资产配置信息可以制作表格经资产配置管理员审查后进行批量导入。
2、资产编码需要根据行业标准YC/T 387—2011《 行业固定资产分类与统一代码编制规则》,在IT运维综合管理平中进行手工录入
3、资产编码应录入在IT运维综合管理平的配置项的“资产编号”
字段中,此字段已由系统检测编码位数,以及资产编码中的组织机构代码是否正确,必须符合《 行业固定资产分类与统一代码编制规则》的要求
4、固定资产编码共由22位数字组成:
a) 第一部分组织机构代码,根据YC/T 190编制的各单位组织机构代码,用8位数字表示。
b) 第二部分总公司固定资产分类代码,用4位数字表示,是总公司固定资产大类(2位)+中类编码(2位)。 c) 第三部分固定资产分类代码,用4位数字表示,是 结合固定资产管理需要在固定资产分类标准基础上编制的再分类编码,是 固定资产小类(2位)+细目编码(2位)。 d) 第四部分顺序码(即流水码),用6位数字表示,在直属公司代码系统中统一注册赋码,从“000001”至“999999”。 e) 固定资产编码规则如下:
5、资产配置管理员应定期对资产进行审计,确保资产管理信息的严肃性和可靠性。
行业固定资产分类与统一代码编制规则
大类 代名代名称 码 称 码 01 电控系统 02 电控系统 电子05 设02 备 息化设备 02 服务器设备 02 PC服务器 99 其他计算机设备 01 小型机 计算机、信01 计算机设备 03 掌上电脑 笔记本电脑 01 台式机 02 便携式计算机 码 01 工控机
中类 代名称 码
小类 代名称 (具体实例) 单位
细目 主要资产名称 计量备注说明
99 其他服务器设备 01 路由器 02 交换机 03 网关 03 网络设备 04 集线器 05 光端机 06 终端接入设备 99 其他网络设备 01 防火墙 防火墙、入侵检02 入侵检测设备 测设备、漏洞扫04 安全设备 03 漏洞扫描设备 描设备、计算机计算机终端安全04 终端安全设备 设备 99 其他安全设备 01 触摸式终端设备 触摸式终端设05 终端设备 02 终端机 备、终端机 99 其他终端设备 01 SAN磁盘阵列 02 NAS磁盘阵列 磁盘机、磁盘阵03 磁盘扩展柜 列、存储用光纤04 SAN交换机 交换机、光盘06 存储设备 05 磁带机设备 库、磁带机、磁 06 磁带库设备 带库、网络存储07 光盘库设备 设备、移动存储08 移动存储设备 设备 99 其他存储设备 01 打印设备 02 计算机绘图设备 03 计算机光电设备 04 显示器 05 扫描仪 07 输入输出设备 06 刷卡机 07 POS机 08 数据采集器 09 KVM设备 其它输入输出设99 备 机柜温湿度传感机柜、机房08 机房辅助设备 01 器 环境监控设备 机房温湿度传感 02 器 03 红外传感器 04 烟雾传感器 05 粉尘传感器 06 二氧化碳传感器 07 协议转换器 99 其它设备 01 软件产品 02 自行开发软件 09 软件资产 03 二次开发软件 99 其他软件资产 99 其它计算机、信息化设 备 01 卫星通信设备 02 电话通信设备 01 通信设备 03 备 99 其它 通信、音01 录放音机 03 频、视频及02 收音机 办公设备 音频功率放大器03 02 音频设备 设备 04 电唱机 05 音响电视组合机 06 话筒设备 视频会议系统设 07 数码音频工作站 08 声画编辑机 09 录音外围设备 10 扩音设备 11 音箱 99 其他 01 电视机 02 录像机 03 摄像机 03 视频设备 04 摄录一体机 05 平板显示设备 06 电视唱盘 07 激光视盘机 08 视频监控设备 09 视频处理器 10 虚拟演播室设备 11 字幕机 99 其他 01 音视频播放设备 02 闭路播放设备 04 组合音像设备 同声现场翻译设 03 备 99 其他 01 电话机 05 办公设备 02 传真机 03 复印机 04 投影仪 05 多功能一体机 06 摄像机 07 照相机及器材 08 会计机械 09 LED显示屏 激光视盘机、、 电子白板、、触控一体机、刻录99 其它办公设备 机、速印机、碎 纸机、条码打印机、条码扫描器、、制图机械、办公设备零部件 99 其它通信、音频、视频 及办公设备 其它未分01 99 类电子设备
用电子设备 99 其它未分类电子设备 烟叶生产、烘烤、收购
第八章、 运维流程设计规范
一、 系统运维管理工作内容
1、 固定资产管理
企业对固定资产的管理,主要体现在固定资产购置、管理、使用、折旧、转让等方面。部门主要负责实时记录固定资产变动情况和定期统计本部门固定资产使用使用并提交资产统计表。
运维部固定资产包括三个部分:办公自动化设备、机房内部设备、库房资产。
1)办公自动化设备使用人员不得擅自拆装更换设备,并且有妥善保管义务,定期对设备进行维护、检查其使用情况。设备添加、更换、升级、和故障,使用人员应及时更近资产统计表信息,并注明事由。 2)机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。机房设备如出现变更,要及时汇报给上级部门和相关部门,协同处理问题,尽快的恢复正常运营。
3)库房存储的资产应及时做好进出库记录,并定期对库房进行盘点核实库房资产统计。
附表:
固定资产清单统计表
资产编号 资产名称 使用情况 库房资产统计表
资产编号
2、 网络、安全系统运维管理
1)网络系统的运维管理从三个方面实现:网络的连通性、网络的性能、网络的监控管理。
网络系统运维的前期准备,需要有整个网络拓扑图,机房网络拓扑图,核心设备端口平面详图,接入设备端口平面详图,办公区域端口平面详图,并且需要对网络设备、网络端口、连接线路做与拓扑和平面详图相对应的标示。前期准备工作,可以做为公司的技术文档的一部分,也可以为公司运维管理带来更加准确的网络基础依据。
资产名称 入库时间 入库签字 出库时间 出库签字 备注 使用人员 备注 网络连通性需归纳到每天的主干网络日常巡检工作范畴内,连通性测试可以确认网络平台的正常运作,并可以及时检查出网络的连通故障,缩小问题出现时间差,根据的网络基础数据和测试得到的数据,更快更准确的确定网络的故障点,排除故障,恢复网络的正常运行。
工程师定期通过日常网络巡检,网络安全硬件日志,对网络问题、网络运行状况进行周期性检查和数据分析后,总结出网络的性能。
日常运维工作中,除去网络的连通性和网络性能的监测,还需要对终端使用网络的情况有定的掌控,如服务器的日常访问量、网络数据传输峰值、工作用机日常对网络的使用情况等。
对网络负载能力、网络畅通性、网络运行瓶颈、网络常见问题根源等方面有一定了解后,针对性的提出解决建议方案,提早预防发现的网络隐患,降低公司运营风险,保障网络的稳定运行。
2) 计算机网络安全运维可分为物理安全和逻辑安全两方面。 保护网络系统中相关设备(机房设备,日常工作设备)的物理保护,以免予破坏、丢失等。机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。机房日常巡检时要注意机房环境和周边设备的检查,如机房温度、机房适度、有无异味异响、机房异常痕迹、UPS、空调、消防等,为机房设备提供良好运作环境保障。日常工作设备要严格按照公司相关固定资产管理规定方法进行使用和管理。
物理设备连接,以最小化连接原则,根据业务服务响应需求,将不必要的物理网络连接去掉,必要时将不同的服务需求群体划分VLAN,细化防火墙访问控制,减少服务端口数量,对端口加以控制,做好信
息物理隔离,以免内部信息有不必要外泄。
操作系统安装系统补丁软件和网络版杀毒软件,定期扫描系统漏洞,安装系统补丁,定期检查病毒库更新情况和发布情况,杜绝病毒的感染、传播和发作,提高系统的主动防御能力。系统管理员要注意账户密码的强壮度,并避免账户和密码的大众性和常规性,在创建系统用户时,要严格控制,对系统进行多角色、多等级管理,出现问题可方便确认责任人和问题根源。对系统定期进行查看,关闭不必要的系统组件和应用服务,检查系统日志,检测是否出现异常。
规划网络ip地址和MAC地址,限制连入局域网的上网计算机,对网络终端连入状况有清晰的了解。对网络终端上网行为管理规则进行规划,规则添加如屏蔽与工作无关的网站、屏蔽某些关键词、监控p2p流量等,并将相关条款体现在公司规章制度中,以加强管理力度。
3、 主机、存储系统运维管理
日常巡检要对硬件运行状态仔细检查,从设备硬件提示信息及时发现问题,防止影响扩大化,及时解决故障,恢复系统的正常运作和系统冗余性,外部提示包括面板指示灯、电源指示灯、网卡指示灯、磁盘指示灯,以及各种硬件故障提示和报警信息。
定期监控cpu性能,内存使用情况,硬盘利用情况,硬盘运行状态,网卡状态,系统日志,交换分区,进程状态,存储交换机端口状态,存储传输情况,通过监控数据对主机和存储系统的性能进行评估。发现隐患,先将问题确定到点,进行一段时间的问题信息数据监控,
根据搜集的更多更高密度的数据对问题原因做出判断,如果属于一般应用系统问题,就将相应问题的应对工作加入工作日程,及时排除系统隐患,如果是由于硬件瓶颈导致,就对相关数据做出整合报表并附加解决提案提交公司上级,最终拟定解决方案,以确保服务系统的高可用性和高冗余性。
4、 应用服务系统运维管理
应用服务系统是公司对外业务的信息平台,也是公司信息化能力的体现,同时也承载了公司内部工作平台,所以平台的持续稳定运行显得十分主要。管理人员要对不同应运服务的服务需求和服务人群有一定的了解,以便于规划网络构架,划分网络资源,定位应运服务的性能。
应运服务的运维管理,除了要结合机房硬件日常管理,还要对服务的配置信息进行维护管理。日常巡检是有条件的话要从不同的网域检测服务响应能力,并要定期进入服务操作系统检查应用系统服务配置是否正常、检查日志文件是否有异常报错、检查服务平台操作系统是否流畅。通过对配置信息、故障报错、服务性能的管理,提高服务平台事件的分析处理能力。
5、 数据系统运维管理
数据系统承载了服务平台的数据功能,它的正常运行和应用服务系统是同等重要的,数据系统运维主要体现在数据服务维护和数据备份两个主要方面。
数据库运维服务管理包括主动数据性能管理,快速发现、诊断、解决
性能问题,在发现问题是,及时找出性能瓶颈,解决数据库性能问题,并要注意数据库系统的变化,主动预防可能发生的问题,保证数据访问响应能力。
数据备份对服务冗余性有着重要的作用,对数据文件做好日常数据增量备份和定期全备份,对重要文件做光盘或移动存储等介质的数据备份,有条件的话将数据进行异地数据备份。在日常工作中要监控备份服务进程、备份情况(起止时间、是否成功、出错告警),出现问题及时处理,恢复数据服务。当用户业务数据需要更新时,要记录更新日期,以便故障发生后尽快恢复数据。
备份应用系统数据的同时,也要对运维检修工作进行数据备份,如网络设备配置参数备份、网管系统备份等,当在运维工作中出现配置错误时,可以通过相关备份恢复参数,短时间内恢复网络系统正常运行。
6、 信息保密管理
运维人员有责任对网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等涉及公司机密、运营管理、近期规划、发展规划的信息负有保密责任,不得随意复制的传播。在进行日常运维工作时,未经上级或相关部门批准,无关人员不得进入机房,如已得到许可的,需由相关人员陪同。
7、 日常运维
公司日常运维工作分两部分:日常巡检、日常维护。 1)日常巡检主要体现在:机房环境巡检、设备巡检、网络传输
巡检。
机房环境日常检查可以通过机房监控服务器进行远程检查,但同时也要进行人员现场检查和管理。机房应保持整洁并进行定期打扫,不准存放食物,禁止存放杂物和私人用品,严禁存放易燃、易爆、具腐蚀性危险品。机房内设备设施和物品不准任何人随意乱动,配置的常用仪器仪表、工具、资料不得外借带出机房。机房温度应控制在20℃~25℃之间,湿度为40%~60%,密闭防尘。检查机房周边设备,如UPS、空调、消防等设备的正常运行。机房出入应有登记,非工作人员未经许可不得随意进入机房,得到许可方可进入,进入机房不准喧哗、不准吸烟、不准用餐。机房内应配置事故照明装置,以备应急使用。
设备日常巡检包括:设备外观检查(硬件完好性、稳定性、告警系统、面板参数标识);接续连线检查(接地线、电源引接线、架间连接电缆、负载连接电路的接续可靠性等);机架内部简单清洁,接续端子除尘、加固等;设备内部软件设置参数检查核对,历史告警信息阅读;设备运行资料核对记录;应用系统日志;设备、线缆标识是否清晰、完整;应用系统磁盘空间、CPU占用情况;各应用系统服务运行状态;数据备份是否正常进行。
日常巡检还需要对网络传输设备运行进行状态和网络传输信息进行监控管理。通过对网络设备的外部信息、运行日志、负载状态、配置参数、通信状况、服务功能等信息确保设备正常工作,并实时监控网络计算机接入数量、终端用户上网行为、网络端口传输流量等数据保证网络传输畅通,最终达到保障网络系统正常运作的目的。
7.2)日常维护分为应用服务维护、网络维护、办公设备维护。 在日常工作中要定期对系统进行优化,检查系统补丁安装情况,查看防毒系统的病毒库升级状态,关闭无用的系统组件和系统服务,检查并修复服务系统错误日志,管理账户密码及用户权限,应用服务配置修改和参数更新,数据系统性能维护,监控备份服务,保障应用服务系统随着公司业务的增涨和改变做出相应的服务更新,并负责网络传输设备的安装、调试、测试,排除网络故障,优化网络性能,预防网络隐患,保障网络畅通稳定的运行。
维护工作站出现操作系统、办公软件、软件客户端、病毒入侵、数据误删除、漏洞补丁缺失、网络通断、常见硬件错误等故障现象;打印机、扫描仪、传真机、数码存储产品等出现驱动程序错误、不能打印、扫描、收发传真、数据存储错误、共享错误等影响正常工作的软件故障,最大程度的提供技术支持工作,以保障公司业务的顺利进行。
附表:
机房巡检表
机房巡检表 检查时间 年 月 日 一、机房环境 检查项 温度 痕迹 异响 结论 □正常 □异常 □正常 □异常 □有 □无 情况摘要 ℃ 检查项 湿度 清洁 异味 检查人 结论 □正常 □异常 □正常 □异常 □有 □无 情况摘要 注;痕迹检查地面、墙壁、天花是否有痕迹、水渍,机房内是否有鼠患、蚁、蟑螂痕迹,正常室温:20~25℃ 二、周边设备 检查项 UPS 空调 结论 □正常 □异常 □正常 □异常 情况摘要 检查项 电池组 消防 结论 □正常 □异常 □正常 □异常 情况摘要 三、电话交换机,网络设备 检查项 外线电话正常通话 电话交换机 内线电话正常通话 电话交换机正常工作 网络通讯状况 网络流量大于0%小于2.5% 数据指示灯状况 网络交换机 网络通讯状况 交换机端口及网线状况 结论 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 情况摘要 网络设备 防火墙 四、服务器 检查项 硬件故障 故障处理详情 补丁 补丁安装详情 防病毒 病毒库日期 系统事件 日志文件 提示操作/正常值 查看服务器设备故障灯 是否有新补丁需要测试安装 病毒库是否升级为最新 无错误事件与不明登陆事件 结论 情况摘要 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 备注 下服务 □正常 □异常 □是 □否 □是 □否 整体检查 XXX设置以及运行正常,数据量正常 无处于失效状态的逻辑卷 服务器平台正常访问 远程登陆正常工作 最近备份时间: 年 月 日 无错误事件与不明登陆事件 设置以及运行正常,数据量正常 无处于失效状态的逻辑卷 服务器运行情况 远程登陆正常工作 办公系统正常启动 最近备份时间: 年 月 日 无错误事件与不明登陆事件 设置以及运行正常,数据量正常 无处于失效状态的逻辑卷 远程登陆正常工作 磁盘卷组 功能 数据备份 系统事件 日志文件 服务 XXX XXX磁盘卷组 功能 服务 数据备份 系统事件 日志文件 磁盘卷组 功能 服务器服务器运行情况 数据库正常工作 数据备份 系统事件 日志文件 磁盘卷组 功能 数据备份 最近备份时间: 年 月 日 无错误事件与不明登陆事件 设置以及运行正常,数据量正常 无处于失效状态的逻辑卷 远程登陆正常工作 服务器运行情况 数据库正常工作 最近备份时间: 年 月 日 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 □正常 □异常 XXX服务
重要参数维护记录表
参数维护发起人姓名 事件发起单位/部门 维护人员姓名 维护人员单位/部门 事件发起日期 联系电话 工作日期 联系电话 参数修改事由 管理部门领导 审批意见 维护人员具体操作 新参数实施测试结果 备注:
非机房维护人员进入申请表
申请人员姓名 进入人员单位名 进入时间 联系电话 进入事由 陪同人员姓名 备注: 陪同人员部门
外来维护登记表
维护人员姓名 维护人员单位 系统当前状态 维护对象 系统问题来源 工作日期 联系电话 问题描述 解决方法及说明 系统运维人员 审核意见 备注:
一、 网络系统运维流程
1、监控指标及SLA管理
网络监控工具可以监控网络设备的各种KPI技术参数指标,用来了解设备运行是否正常及详细运行状况。可对所属网络设备制定监控KPI及其告警级别和阀值。达到重要级别的监控工具的KPI监控告警,将在IT运维综合管理平台中自动生成工单并及时通过短信/邮件通知运维人员。
以下为网络监控KPI及其阀值设定示例,可根据实际情况制定KPI及告警阀值/重要级别:
➢ 接口通断告警:启用。
➢ 备通信中断告警:启用。 ➢ 性能告警指标:
采集周期(单位:分 钟) CPU利用率 内存利用率 接口出入利10 用率 入丢包数 出丢包数 入错误包数 出错误包数
网络系统SLA示例规范,制定符合实际情况的SLA管理指标:: ➢ 网络严重事件SLA管理: SLA总时间:4小时
一级通告时间:4小时,通告对象:网络事件处理一线技术支持,通告方式:短信、邮件
二级通告时间:5小时,通告对象:运维人员,通告方式:短信
➢ 网络严重变更SLA管理: SLA总时间:24小时
60 60 60 60 20 20 20 20 90% 10 10 30% 60% 告警下限 一级通告时间:24小时,通告对象:网络变更处理技术支持,通告方式:短信、邮件
二级通告时间:25小时,通告对象:运维人员,通告方式:短信
2、配置管理流程
利用ITMANAGER网络监控工具自动收集的设备资产信息,以及配置管理员手工录入的设备管理信息、责任人信息及商务信息,形成一个完善的网络设备关联资产配置库,方便各流程对其进行管理及调用,方便资产的信息统计及维护费用统计。 日常配置管理运维流程如下:
ITMANAGER工具自动收集的设备信息/手工录入的设备信息 配置经理审核批准 否 通过审核 是 资产配置进入资产库
3、事件管理流程
主要用于处理网络日常运维故障,结合变更管理流程可以完全满
足目前的运维工作。 日常事件运维流程如下:
网络系统故障 是否需要运维总协调人处理 否 提交一线支持人员处理 是 进入运维总协调人运维流程处理 是 是否变更 否 创建关联变更工单提交给变更经理,进入变更流程处理 自行处理工单 处理完毕,将相关文件作为工单附件,关闭工单
4、 变更管理流程
主要用于对网络系统日常运维工作中产生的设备更换、备件更换、配置更改等变更情况进行审批处理。 变更处理流程如下:
提交变更申请 变更经理处理 是 提交给变更领导进 行审批 是否评估 否 是否需要 协同处理 否 是 是否复审 否 是否通过 是 变更实施人员实施 变更内容 否 是 变更评估员评估 完毕将相关文档 作为工单附件,返 回工单给变更经 理查看评估情况 创建关联工单提交 协同人员处理 结束并关闭工单 处理完毕将相关文 档作为工单附件, 返回工单给变更经 理查看变更情况 是否通过 是 变更经理关闭工单 否
5、 问题管理流程
主要用于在网络运维工作中的主动式运维,即通过对故障、监控历史数据等的分析,来处理潜在问题、发现问题根源,以避免问题再次发生,或对网络架构、带宽等提出优化建议等。 问题处理流程如下:
运维人员发现潜在问题 是否需要运维总协调人处理 否 提交问题管理员处理 是 进入运维总协调人运维流程处理 是 是否变更 否 创建关联变更工单提交给变更经理,进入变更流程处理 自行处理工单 处理完毕,将相关文件作为工单附件,关闭工单
6、 知识库管理流程
知识库管理主要是对网络系统日常IT运维工作中总结的经验进行总结和积累,以便在问题发生时,能够通过已知的解决方案快速恢复正常。
根据事件和问题工 单处理的解决方案 的总结,手工创建 知识点 知识库管理员进行审核 否 是否通过 是 审核完毕,知识点进 入知识库
根据事件和问题工 单处理的解决方案 的总结,手工创建 知识点 知识库管理员进行审否 是否通过 是 审核完毕,知识点进
第三部分 应急安全事情的处理方案
安全应急事件等级分类和相应的处理流程 根据应急事件的特点及实发事件所产生的损失程度,将应急事件分为三级:
1、一般应急事件: 单一地点的网络故障或服务器受损,如:局部网络瘫痪、个别设备死机,对该地点的系统运行及业务运作造成严重损害,持续时间小于24小时的事件(超过24小时的事件为较大应急事件)。
处理流程:判断事件原因——事件分类(确定为一般应急事件)——初步技术支持(保障系统和公司业务正常运做)——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理
2、较大应急事件:两个及以上地点的网络故障或服务器系统受损,如:较大规模的网络瘫痪、个别硬件设备损坏或遗失。对该地点的系统运行及业务运作造成严重损害,持续时间小于24小时的事件(超过24小时的事件为重大应急事件)。
处理流程:判断事件原因——事件分类(确定为较大应急事件)——初步技术支持(保障系统和公司业务正常运作)——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理
3、重大应急事件:多个(两个及以上)地点系统瘫痪,对业务运作造成巨大损失的安全事件以及火灾或遭可抗拒力破坏机房造成损毁和人员伤害等。
处理流程:判断事件原因——事件分类(确定为重大应急事件)
——初步技术支持(保障公司业务数据和设备安全)——向上级领导报备并提供解决方案——调查和诊断——解决和恢复——事件的记录——事件的关闭——问题管理
二、应急文档的备存: 1、各类网络设备和服务器、PC及其附属设备的型号、序列号等;2、硬件设备供应商、生产厂商的电话、联系人、网址; 3、操作系统、关键业务应用软件开发商或供应商的电话、联系人;4、网络拓扑图;5、路由器、防火墙、入侵检测设备的配置文档,服务器登录用户及原始密码文档;6、各类软件的技术文档及其他需要保存的文档。
三、应急设备及软件备存: 1、正版的操作系统启动盘、安装盘; 2、正版的防病毒软件(注明安装及升级序列号); 3、数据库管理系统软件,数据库备份软件及最近完整的数据备份存储介质; 4、相关的设备驱动程序(含主板、显卡、网卡等)及更新到最新的服务器注册表文件;5、备用网线、万用表、测网仪、螺丝刀等必要工具;6、其他必备的应急工具。
四、日常预防管理: 1、定期检查服务器和网络设备; 2、及时更新服务器的防病毒软件病毒库; 3、定期对所有服务器进行漏洞扫描、补丁修复;4、定时备份重要数据;5、实行值班制度。
五、预警机制: 预警信息分为外部预警信息和内部预警信息两类。外部预警信息指本公司外突发的可能破坏网络或者最新病毒等可能产生重大影响的事件警报;内部预警信息指单位内通信网络的中断或部分计算机系统奔溃对业务操作有影响的事件警报和运维人员在
机房定时巡检中发现的服务器和设备的异常。 运维人员在获得外部预警信息后,对预警信息加以分析,通知公司各部门做好预防和网络保障应急准备工作,并报备上级领导;通过监控软件或机房巡检获得的内部预警信息,分析后按照早发现、早报告、早处置的原则,避免可能演变为严重应急事件的情况。
六、应急事件处理:1、确定事件类型 1)、运维人员及时判断事件的类型和紧急程度; 2)、确定事件范围(多少地点发生事件),检查敏感信息失密情况及其程度,分析攻击来源及侵入点。3)、判断事件危害性及损失程度、分析人为原因、事件潜在危害性;4)、确定事件发生时间及延续时间; 5)、判断需采用的方法及准备处理事件需要的必备资源; 6)、根据损失程度及延续事件等情况确定等级,较大、重大信息的报警信息需报备上级领导,采取相应的措施之后启动应急预案。
七、事件报告 1、报告方式:
1)、根据事件的类型及紧急程度及时向上级领导报告(口头或书面报告),并制定具体措施;
2)、运维人员在收到监控软件报警或发现机房巡检时发生异常,识别分析之后需要对设备进行下架检查或需查看系统、数据等信息时,应本着尽快解决故障的原则对上级领导报备,如需其他部门同事的协调解决也应及时反馈。
2、报告内容: 事件的基本信息(故障发生的时间、故障点、故
障情况)、事件的类型、表现出来的现象、涉及的网络,事件当前的状态及可能造成的后果,以及事件解决的建议和措施。
八、现场处理
计算机病毒:1、断网、升级系统补丁及防病毒软件,查找病毒源,进行杀毒;2、查找不出时,应向有关部门进行报告,提供病毒样本;3、查找计算机病毒感染的存储介质; 4、对病毒利用的系统漏洞要通过补丁和升级的方式进行填补。5、 记录全部处理过程。 黑客入侵:1、记录系统状况 2、立即复制系统登录文件、历史文件、日志文件等重要文件;3、修改防火墙、路由器等网络安全设备的过滤规则。4、断开被攻主机、关闭不需要的服务。5、处理可疑的文件和程序;6、修改不安全的帐号和口令;7、恢复被修改的的软件和数据。 8、安装相应的补丁程序,填补安全漏洞。9、编写报告,详述事件过程及处理步骤。
备注:采取必要措施抵御入侵行为,保护系统和数据安全,利用完整性检查工具进行检查,必要时向公安机关报告并申请技术协助。
局域网无法使用:1、磁盘陈列(存储介质)设备问题:用同规格的备用硬盘进行替换,其他故障要及时与供应商联系修复; 2、服务器问题:启用备用服务器,通过热备服务服进行双机热备恢复(包括数据服务配置)。提供故障服务器型号、序列号并与服务器供应商联系,取得技术支持,检查服务器软件,将原有数据信息存盘并实施用户数据备分后移支正常服务器上使用,并与软件供应商联系,尽早解决问题。 3、路由器、交换机、防火墙等硬件故障:使用备份端口或
备份硬件,并检查或配置相关内容,与供应商联系,尽早解决问题;4、通信线路故障:用测网仪进行测试,用好的网线进行替代,关键业务使用应急通信线路,向受影响的单位发出通报,立即与线路供应商联系,在线路供应商承诺的时间内解决问题。 5、网络带宽阻塞:通过网管软件,判断阻塞原因及阻塞包发包点,再按情况逐个断网排查,直至网络恢复正常。对已断网计算机进行系统补丁升级、查毒等方式,找到原因并恢复正常后方能接入网络。
广域网无法使用:1、路由器、交换机、防火墙等硬件故障:使用备份端口或备份硬件,并检查或配置相关内容,与供应商联系,尽早解决问题;2、通信线路故障:关键业务使用应急通信线路,向受影响的单位发出通报,立即与线路供应商联系,在线路供应商承诺的时间内解决问题。 3、网络带宽阻塞:通过网管软件,判断阻塞原因及阻塞包发包点,再按情况逐个断网排查,直至网络恢复正常。对已断网计算机进行系统补丁升级、查毒等方式,找到原因并恢复正常后方能接入网络。
数据库无法正常使用:1、记录故障情况; 2、检查数据库服务是否启动,若未起,则重启数据库服务; 3、检查文件系统,若有问题则在备份重要数据文件后用文件修复软件修复;4、与数据库供应商联系,取得技术支持;5、重装数据库; 6、分析原因,编写报告,详述事件过程及处理步骤。
核心设备无法正常使用:1、检查核心设备无法正常工作的原因 2、系统软件故障:和相关负责人联系,尽快恢复工作 3、硬件故障:及
时报告上级领导并查找、确定故障设备及故障原因,进行初步处置,同时联系设备供应商共同检测并排除故障。4、若短时间之内无法修复,应启动备份设备,保持系统网络正常运行,将故障设备脱离网络,进行故障排除。5、故障排除后,在网络空闲时期,替换备用设备,如故障仍然存在,立即联系厂商进行返厂维修或调换设备。
断电:1、启动应急电源; 2、使用备用UPS进行供电; 3、与相关部门联系,尽快恢复供电; 4、若在UPS供电时间范围内不能恢复供电,要在UPS能正常供电的时间段内进行对主要系统及数据进行备份工作,备份工作完毕后,对主要设备进行系统关闭,请示上级领导后,关闭非关键设备,确保关键设备供电。
火灾:1、立即发出火灾警报并报告;2、根据情况立即断电; 3、有秩序、有步骤地抢救数据资料和硬件设备 4、火险情况解除后,尽快检查并恢复应用系统的工作。
事件后期恢复及评估:1、清理系统、恢复数据、程序、服务。把所有被攻破的系统和网络设备彻底还原到它们正常的任务状态。恢复工作应该十分小心,避免出现误操作导致数据的丢失。另外,恢复工作中如果涉及到机密数据,需要额外遵照机密系统的恢复要求。2、备份硬件设备或配件代替使用后,应及时将损坏设备进行维修或者更新。 3、检查威胁造成的结果,评估事件带来的影响和损害:如检查系统、服务、数据的完整性、保密性或可用性,检查攻击者是否侵入了系统,以后是否能再次随意进入,损失的程度,确定暴露出的主要危险等。
九、事件总结记录:每次应急事件处理完后应对此次应急事件进行分析,形成总结报告。报告应包括事件类别、事件发生时间、有无预警信息、事件所造成的影响、参与人员、采取的措施和效果、事件的损失评估、经验教训等内容。并及时向上级领导报备。
运维工作的注意事项: 1、值班人员交接班时应注意帐号的登出登入,做好工作交接记录,检查上位在岗运维是否编写值班事件记录、事件记录是否全面详细、有无事件的最终解决方案。 2、收到监控软件报警和巡检时发现的异常,应做好事件识别分析和记录,需要对设备进行上下架检查时,应报备上级领导;需要查看系统、数据以解决问题时,应请示上级领导后方可;需要其他部门的协调解决时应及时与相关同事进行沟通。查看系统、数据以解决问题时,应请示上级领导后方可;需要其他部门的协调解决时应及时与相关同事进行沟通。
因篇幅问题不能全部显示,请点此查看更多更全内容