第四章-信息系统管理
管理方法
管理基础
-
- 层次结构
信息系统包括四个要素:人员、技术、流程和数据。
-
- 系统管理
信息系统管理覆盖四大领域:
-
规划和组织:针对信息系统的整体组织、战略和支持活动。
-
设计和实施:针对信息系统解决方案的定义、采购和实施,以及他们与业务流程的整合。
-
运维和服务:针对信息系统服务的运行交付和支持,包括安全。
-
优化和持续改进:针对信息系统的性能监控及其于内部性能目标、内部控制目标和外部要求的一致性管理。
规划和组织
-
- 规划模型
战略是实现目标、意图和目的的一组协调行动。战略往往始于使命,而使命是对组织的宗旨给出的一个清晰并令人信服的陈述。
信息系统战略三角突出了业务战略、信息系统和组织机制之间的必要一致性。
-
- 组织模型
-
业务战略
业务战略阐明了组织寻求的业务目标以及期望如何达成的路径。
描述业务战略的经典框架是迈克尔-波特提出的竞争力优势模型,如下图所示:
-
组织机制战略
组织机制战略包括组织的设计以及定义、设置、协调和控制其工作流程而做出的选择。组织机制战略本质上需要回答“组织将如何构建以实现其目标并实施其业务战略”这一问题,并围绕这一问题形成有效的规划。理解组织设计的经典框架是哈罗德-莱维特提出的钻石模型,如下图所示:
-
信息系统战略
信息系统战略是组织用来提供信息服务的计划。
信息系统支撑组织实施其业务战略。业务战略是关于竞争(服务对象想要什么,竞争做什么),定位(组织想以什么方式竞争)和能力(公司能做什么)的功能。
信息系统帮助确定组织的能力。现在使用一个基本的矩阵框架来理解组织必须做出的与信息系统相关的决策, 如下图所示:
设计和实施
开展信息系统设计和实施,首先需要将业务需求转换为信息系统架构,信息系统架构为将组织业务战略转换为信息系统的计划提供了蓝图。
-
- 设计方法
-
从战略到系统架构
组织必须从业务战略开始,使用该战略制定更具体的目标。然后从每个目标派生出详细的业务需求。组织需要与架构设计人员合作,将这些业务需求转换为构成信息系统架构的系统要求、标准和流程的更详细视图。这个更详细的视图,即信息系统架构要求,包括考虑数据和流程需求以及安全目标等事项。组织还可以向架构设计人员清楚地了解信息系统必须完成的工作以及确保其顺利开发、实施和使用所需的治理安排。治理安排指定组织中哪个人保留对信息系统的控制权和责任。
-
从系统架构到系统设计
信息系统架构被转换为功能规格。
硬件、软件、数据和网络必须以一致的模式组合在一起,才能拥有可行的信息系统。信息系统具有多个级别: ①全局级别可能侧重于整个组织,并构成整个组织的信息环境;②组织间级别信息系统则为跨组织边界的服务对象、供应商或其他利益干系人的沟通交流奠定基础;③应用级信息系统是在考虑特定业务应用时,通常重点考虑的数据库和程序组件,以及它们运行的设备和操作环境。
-
转换框架
转换框架将业务战略转化为信息系统架构进而转变为信息系统设计,转换框架提出了三类问题:内容、人员和位置,需要为每个信息系统组件回答这些问题。
“内容”相关问题是最常被问到的, 需要回答组件是什么,并确定特定类型的技术等。
“人员”相关问题 旨在了解相关组件涉及哪些个人、团体和部门。
第三类问题涉及“何处”,随着网络的激增,许多信息系统的设计和构建可能跨越多个位置使用组件,了解信息系统意味着需要了解所有内容各自的位置。
-
架构模式
传统上,信息系统体系架构有三种常见模式:①集中式架构。集中式架构下所有内容采用集中建设、支持和管理的模式,其主体系统通常部署于数据中心,以消除管理物理分离的基础设施带来的困难。②分布式架构。硬件、软件、网络和数据的部署方式是在多台小型计算机、服务器和设备之间分配处理能力和应用功能,这些设施严重依赖于网络将它们连接在一起。③面向服务的系统架构(SOA)。SOA架构中使用的软件通常被引向软件即服务(SaaS)的相关架构,同时,这些应用程序在通过互联网交付时也被称为Web服务。
运维和服务
信息系统的运维和服务由各类管理活动组成,主要包括:运行管理和控制、IT服务管理、运行与监控终端侧管理、程序库管理、安全管理、介质控制和数据管理等。
-
- 运行管理和控制
管理信息系统运行的管理控制主要活动包括:
-
过程开发:操作人员执行的重复性活动应以过程的形式记录下来,需要开发、审查和批准描述每个过程及其每个步骤的相关文档,并将其提供给运营人员。
-
标准制定:从运行执行任务的方式到所使用的技术,采用标准化定义和约束,从而有效推动信息系统运行相关工作的一致性。
-
资源分配:管理层分配支持信息系统运行的各项能力,包括人力、技术和资源。资源分配应与组织的使命、目标和目的保持一致。
-
过程管理:应测量和管理所有信息系统运行的相关过程,确保过程在时间上和预算目标内被正确和准确地执行。
-
- IT服务管理
IT服务管理由若干不同的活动组成:服务台、事件管理、问题管理、变更管理、配置管理、发布管理、服务级别管理、财务管理、容量管理、服务连续性管理和可用性管理。
-
服务台。服务台是服务中与服务干系人沟通和交互的重要界面,负责对服务干系人遇到的问题和需求进行响应和处理;服务台是IT服务干系人的“官方”接口和信息发布点,组织内部各个团队之间相互协作的纽带和协调者;
-
事件管理。事件可能是服务中断、服务速度变慢、软件缺陷以及其他任何组件发生故障。事件管理是IT服务中最常见的流程之一,也是IT服务必须建立和使用的流程,良好的事件管理必须具备快速解决事件的能力,从而在出现事件时能够尽快恢复服务的正常运作,可以有效提高服务的质量,提升服务干系人满意度。
-
问题管理。当发生了几个看起来具有相同或相似根本原因的事件时,就会启动问题管理活动。问题管理的总体目标是减少事件的数量和严重性,这种对事件的控制既包括发生事件后的被动性措施,也包括采取主动措施预防与容量相关的事件发生。
-
变更管理。变更管理可确保在信息技术环境中执行的所有变更都得到控制和一致化的执行。
-
配置管理。配置管理的核心工作是识别、记录、控制、更新配置项信息,主要包含配置管理数据库(CMDB)的建立以及配置管理数据库准确性的维护,以支持信息系统的正常运行。
-
发布管理。发布管理负责计划和实施信息系统的变更,并且记录该变更的各方面信息。
-
服务级别管理。服务级别管理就是对IT服务的级别进行定义、记录和管理,并在可接受的成本之下与干系人达成一致的管理过程,通过服务水平协议(SLA)、服务绩效监控和报告的不断循环,持续维护和改进服务质量,以及触发采取行动消除较差服务,从而满足干系人的服务需求。
-
财务管理。IT服务财务管理是负责对IT服务运作过程中所有资源进行财务管理的流程,主要活动包括:预算编制、设备投资、费用管理、项目会计和项目投资回报率(ROI)管理等。
-
容量管理。容量管理用于确认信息系统中有足够的容量满足服务需求。
-
服务连续性管理。服务连续性管理是一组与组织持续提供服务的能力相关的活动,主要是在发生自然或人为灾难时继续保持服务有效性的活动。服务连续性管理活动分为服务连续性管理的治理、业务影响分析、制订和维护服务连续性计划、测试服务连续性计划、响应与恢复五个过程。
-
可用性管理。可用性管理是有关设计、实施、监控、评价和报告IT服务的可用性以确保持续地满足服务干系人的可用性需求的服务管理流程。可用性是指一个组件或一种服务在设定的某个时刻或某段时间内发挥其应有功能的能力,即在约定的服务时段内,IT服务实际能够使用的服务的时间比例。
-
- 运行与监控
IT运行的任务常包括:①按照计划执行作业;②监控作业,并按照优先级为作业分配资源;③重新启动失败的作业和进程;④通过加载或变更备份介质,或通过确保目标的存储系统就绪来优化备份作业;⑤监控信息系统、应用程序和网络的可用性,保证这些系统具备足够的性能;⑥实施空闲期的维护活动,如设备清洁和系统重启等。
-
运行监控
IT团队应对信息系统、应用程序和基础设施进行监控,以确保它们继续按要求运行。监控工具和系统使IT运行人员能够检测软件或硬件组件何时未按计划运行等。检测和报告的错误类型包括:系统错误、程序错误、通信错误和操作员错误等。
-
安全监控
组织需要执行不同类型的安全监控,并把安全监控作为其整体策略的一部分,以预防和响应安全事件。
-
- 终端侧管理
组织通常使用IT管理工具来促进对用户终端计算机的高效和一致的管理。一般来说,最终用户计算机是“锁定”的,这限制了最终用户可能在其设备上执行的配置更改的数量和类型,包括操作系统配置、补丁安装、软件程序安装、使用外部数据存储设备等。
-
- 程序库管理
程序库是组织用来存储和管理应用程序源代码和目标代码的工具。
程序库通常作为具有用户界面和多种功能的信息系统存在,其中主要功能包括:访问控制、程序签出、程序签入、版本控制和代码分析等。
-
- 安全管理
信息安全管理可确保组织的信息安全计划充分识别和解决风险,并在整个运维和服务过程中正常运行。
-
- 介质控制
组织需要采取一系列活动,以确保数字介质得到适当管理,包括对其保护以及销毁不再需要的数据。
组织应考虑包含在介质管理、销毁策略和程序范围内的介质主要包括:备份介质、虚拟磁带库、光学介质、硬盘驱动器、固态驱动器、闪存、硬拷贝等。
介质清理的策略和程序需要包含在服务提供商的相关要求中,以及记录保存活动以跟踪介质随时间推移的销毁情况。
-
- 数据管理
数据管理是与数据的获取、处理、存储、使用和处置相关的一组活动。
优化和持续改进
传统上,优化和持续改进常用的方法为戴明环,即PDCA循环。
PDCA循环是将持续改进分为四个阶段,即Plan(计划)、Do(执行)、Check(检查)和Act(处理)。
优化和持续改进基于有效的变更管理,使用六西格玛倡导的五阶段方法DMAIC/DMADV,是对戴明环四阶段周期的延伸,包括:定义(Define)、度量(Measure)、分析(Analysis)、改进/设计(Improve/Design)、控制/验证(Control/Verify)。当第四阶段的“改进”替换为“设计”,“控制”替换为“验证”时,五阶段法就从DMAIC转变为DMADV。
-
- 定义阶段
定义阶段的目标包括待优化信息系统定义、核心流程定义和团队组建。
-
待优化信息系统定义。可使用“延伸目标”概念来定义待优化的信息系统。延伸目标是那些超出当前组织结构、资源和技术可预见范围的优化目标。
-
核心流程定义。该活动关注定义利益干系人、投入和产出以及广泛的功能。SIPOC(Supplier、Input、Process、Output、Customer)分析是定义核心流程视图的首选工具。
-
团队组建。
-
- 度量阶段
度量阶段目标包括流程定义、指标定义、流程基线和度量系统分析。
-
流程定义。流程定义通常使用流程图工具定义度量阶段的流程,以图形方式实现给定信息系统的输入、操作和输出。
-
指标定义。待优化信息系统的定义包括将用于评估流程的指标。
-
流程基线。当明确了度量指标之后,必须通过基线确定现有系统的能力,以确定当前系统在多大程度上较好地满足了服务对象的要求,并验证定义阶段中确立的信息系统目标达成情况。
-
度量系统分析。质量始于度量。只有当质量被量化时,才能开始讨论优化和持续改进。一个良好的度量系统具备特性可包括:准确、可重复、线性、可重现、稳定等。
-
- 分析阶段
分析阶段的三个目标包括价值流分析、信息系统异常的源头分析和确定优化改进的驱动因素。
-
- 改进/设计阶段
改进/设计阶段的目标包括:①向发起人提出一个或多个解决方案;量化每种方法的收益;就解决方案达成共识并实施。② 定义新的操作/设计条件。③ 为新工艺/设计提供定义和缓解故障模式。
-
- 控制/验证阶段
控制/验证阶段的目标包括标准化新程序/新系统功能的操作控制要素、持续验证优化的信息系统的可交付成果、记录经验教训。
管理要点
信息系统管理涉及系统准备、设计、实施、运行等活动的众多方面,管理重点范围和细致程度随各组织的战略和业务目标的不同而存在差异。从日常管理活动视角来看,各组织关注的管理内容主要聚焦在数据管理、运维管理和信息安全管理等方面的体系化管理。
数据管理
数据管理能力成熟度评估模型(DCMM)是国家标准 GB/T 36073《数据管理能力成熟度评估模型》中提出的,旨在帮助组织利用先进的数据管理理念和方法,建立和评价自身数据管理能力,持续完善数据管理组织、程序和制度,充分发挥数据在促进组织向信息化、数字化、智能化发展方面的价值,如下图所示:
DCMM定义了数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生存周期8个核心能力域。
-
- 数据战略
组织的数据战略能力域通常包括数据战略规划、数据战略实施和数据战略评估三个能力项。
-
数据战略规划。数据战略规划是在组织所有利益相关者之间达成共识的结果。从宏观及微观两个层面确定开展数据管理及应用的动因,并综合反映数据提供方和消费方的需求。
-
数据战略实施。数据战略实施是组织完成数据战略规划后,逐渐实现数据职能框架的过程。实施过程中依据组织数据管理和数据应用的现状,确定与愿景、目标之间的差距;依据数据职能框架制定阶段性数据任务目标,并确定实施步骤。
-
数据战略评估。组织在数据战略评估过程中需要建立对应的业务案例和投资模型,并在整个数据战略实施过程中跟踪进度,同时做好记录供审计和评估使用。
-
- 数据治理
组织的数据治理能力域通常包括数据治理组织、数据制度建设和数据治理沟通三个能力项。
-
数据治理组织。数据治理组织需要包括组织架构、岗位设置、团队建设、数据责任等内容,它是各项数据职能工作开展的基础。数据治理组织对组织在数据管理和数据应用行使职责规划和控制,并指导各项数据职能的执行,以确保组织能有效落实数据战略目标。
-
数据制度建设。为保障数据管理和数据应用各项功能的规范化运行,组织需要建立对应的制度体系。数据制度体系通常分层次设计,遵循严格的发布流程并定期检查和更新。数据制度建设是数据管理和数据应用各项工作有序开展的基础,是数据治理沟通和实施的依据。
-
数据治理沟通。数据治理沟通旨在确保组织内全部利益相关者都能及时了解相关策略、标准、流程、角色、职责、计划的最新情况,开展数据管理和应用相关的培训,掌握数据管理相关的知识和技能。数据治理沟通旨在建立与提升跨部门及部门内部数据管理能力,提升数据资产意识,构建数据文化。
-
- 数据架构
组织的数据架构能力域通常包括数据模型、数据分布、数据集成与共享和元数据管理四个能力项。
-
数据模型。数据模型是使用结构化的语言将收集到的组织业务运行、管理和决策中使用的数据需求进行综合分析,按照模型设计规范将需求重新组织。
-
数据分布。数据分布职能域是针对组织级数据模型中数据的定义,明确数据在系统组织和流程等方面的分布关系,定义数据类型,明确权威数据源,为数据相关工作提供参考和规范。通过数据分布关系的梳理,定义数据相关工作的优先级,指定数据的责任人,并进一步优化数据的集成关系。
-
数据集成与共享。数据集成与共享职能域是建立起组织内各应用系统、各部门之间的集成共享机制,通过组织内部数据集成共享相关制度、标准、技术等方面的管理,促进组织内部数据的互联互通。
-
元数据管理。元数据管理是关于元数据的创建、存储、整合与控制等一整套流程的集合。
-
- 数据应用
数据应用能力域通常包括数据分析、数据开放共享和数据服务三个能力项。
-
数据分析。数据分析是对组织各项经营管理活动提供数据决策支持而进行的组织内外部数据分析或挖掘建模,以及对应成果的交付运营、评估推广等活动。数据分析能力会影响到组织制定决策、创造价值、向用户提供价值的方式。
-
数据开放共享。数据开放共享是指按照统一的管理策略对组织内容的数据进行有选择的对外开放,同时按照管理策略引入外部数据供组织内部使用。数据开放共享是实现数据跨组织、跨行业流转的重要前提,也是数据价值最大化的基础。
-
数据服务。数据服务是通过对组织内外部数据的统一加工和分析,结合公众、行业和组织的需要,以数据分析结果的形式对外提供跨领域、跨行业的数据服务。数据服务是数据资产价值变现最直接的手段,也是数据资产价值衡量的方式之一,通过良好的数据服务对内提升组织的效益,对外更好的服务公众和社会。数据服务的提供可能有多种形式,包括数据分析结果、数据服务调用接口、数据产品或数据服务平台等,具体服务的形式取决于组织数据的战略和发展方向。
-
- 数据安全
组织的数据安全能力域通常包括数据安全策略、数据安全管理和数据安全审计三个能力项。
-
数据安全策略。数据安全策略是数据安全的核心内容,在制定的过程中需要结合组织管理需求、监管需求以及相关标准等统一制定。
-
数据安全管理。数据安全管理是在数据安全标准与策略的指导下,通过对数据访问的授权、分类分级的控制、监控数据的访问等进行数据安全的管理工作,满足数据安全的业务需要和监管需求,实现组织内部对数据生存周期的数据安全管理。
-
数据安全审计。数据安全审计是一项控制活动,负责定期分析、验证、讨论、改进数据安全管理相关的策略、标准和活动。审计工作可由组织内部或外部审计人员执行,审计人员应独立于审计所涉及的数据和流程。数据安全审计的目标是为组织以及外部监管机构提供评估和建议。
-
- 数据质量
组织的数据质量能力域通常包括数据质量需求、数据质量检查、数据质量分析和数据质量提升四个能力项。
-
数据质量需求。数据质量需求是明确数据质量目标,并根据业务需求及数据要求制定用来衡量数据质量的规则,包括衡量数据质量的技术指标、业务指标以及相应的校验规则与方法。数据质量需求是度量和管理数据质量的依据,需要依据组织的数据管理目标、业务管理的需求和行业的监管需求并参考相关标准来统一制定与管理。
-
数据质量检查
-
数据质量分析。数据质量分析是对数据质量检查过程中发现的数据质量问题及相关信息进行分析,找出影响数据质量的原因,并定义数据质量问题的优先级,作为数据质量提升的参考依据。
-
数据质量提升。数据质量提升是对数据质量分析的结果,制定、实施数据质量改进方案,包括错误数据更正、业务流程优化、应用系统问题修复等,并制定数据质量问题预防方案,确保数据质量改进的成果得到有效保持。
-
- 数据标准
组织的数据标准能力域通常包括业务术语、参考数据和主数据、数据元和指标数据四个能力项。
-
业务术语。业务术语是组织中业务概念的描述,包括中文名称、英文名称、术语定义等内容。业务术语数据管理就是制定统一的管理制度和流程,并对业务术语的创建、维护和发布进行统一的管理,进而推动业务术语的共享和组织内部的应用。业务术语是组织内部理解数据、应用数据的基础。通过对业务术语的管理能保证组织内部对具体技术名词理解的一致性。
-
参考数据和主数据。参考数据和主数据是用于将其他数据进行分类的数据。参考数据管理是对定义的数据值域进行管理,包括标准化术语、代码值和其他唯一标识符,每个取值的业务定义,数据值域列表内部和跨不同列表之间的业务关系的控制,并对相关参考数据的一致、共享使用。主数据是组织中需要跨系统、跨部门共享的核心业务实体数据。主数据管理是对主数据标准和内容进行管理,实现主数据跨系统的一致、共享使用。
-
数据元。通过对组织中核心数据元的标准化,可以使数据的拥有者和使用者对数据有致的理解。
-
指标数据。指标数据是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、时间和数值等组成,指标数据管理指组织对内部经营分析所需要的指标数据进行统一规范化定义、采集和应用,用于提升统计分析的数据质量。
-
- 数据生存周期
组织的数据生存周期能力域通常包括数据需求、数据设计和开发、数据运维和数据退役四个能力项。
-
数据需求。数据需求是指组织对业务运营、经营分析和战略决策过程中产生和使用数据的分类、含义、分布和流转的描述。数据需求管理过程识别所需的数据,确定数据需求优先级并以文档的方式对数据需求进行记录和管理。
-
数据设计和开发。数据设计和开发是指设计、实施数据解决方案,提供数据应用,持续满足组织的数据需求的过程。 数据解决方案包括数据库结构、数据采集、数据整合、数据交换、数据访问及数据产品(报表、用户视图)等。
-
数据运维。数据运维是指数据平台及相关数据服务建设完成上线投入运营后,对数据采集、数据处理、数据存储等过程的日常运行及其维护过程,保证数据平台及数据服务的正常运行,为数据应用提供持续可用的数据内容。
-
数据退役。数据退役是对历史数据的管理,根据法律法规、业务、技术等方面需求,对历史数据的保留和销毁,执行历史数据的归档、迁移和销毁工作,确保组织对历史数据的管理符合外部监管机构和内部业务用户的需求,而非仅满足信息技术需求。
-
- 理论框架与成熟度
国内外常用的数据管理模型包括:数据管理能力成熟度模型(DCMM)、数据治理框架(DGI)、数据管理能力评价模型(DCAM)以及数据管理模型(DAMA定义的模型)等。
DCMM将组织的管理成熟度划分为5个等级,分别是:初始级、受管理级、稳健级、量化管理级和优化级。
-
初始级:数据需求的管理主要是在项目级体现,没有统一的管理流程,主要是被动式管理。
-
受管理级:组织意识到数据是资产,根据管理策略的要求制定了管理流程,指定了相关人员进行初步管理。
-
稳健级:数据已被当做实现组织绩效目标的重要资产,在组织层面制定了系列的标准化管理流程,促进数据管理的规范化。
-
量化管理级:数据被认为是获取竞争优势的重要资源,数据管理的效率能量化分析和监控。
-
优化级:数据被认为是组织生存和发展的基础,相关管理流程能实时优化,能在行业内进行最佳实践分享。
运维管理
-
- 能力模型
-
能力建设
组织需要考虑环境的内外部因素,在治理要求的指导下,根据服务场景,识别服务能力需求,围绕人员、过程、技术、资源能力四要素,策划、实施、检查和改进运行维护能力体系,向各种服务场景赋能,通过服务提供实现服务价值; 并针对能力建设、人员、过程、技术、资源建立关键指标:还需要定期评价运行维护服务能力成熟度,衡量能力水平差距,以持续提升运行维护服务能力。
在价值实现方面,组织需要在不同的服务场景中识别服务需求,通过服务提供,满足用户需求,实现服务价值:
-
服务需求:识别服务需求并遵循能力管理的要求对服务场景进行完整的策划。
-
服务提供:配置符合能力要素要求且和服务场景相适宜的人员、过程、技术和资源,并遵循能力管理的要求实施服务提供。
-
服务价值:将运行维护服务能力体系输出的服务能力应用到服务场景中,通过服务成果、成本控制、风险控制实现服务价值。
-
-
人员能力
在任何组织当中,人力资源都是组织的核心竞争力之一。
组织人员能力建设聚焦在从知识、技能和经验维度选择合适的人,从人员管理和岗位职责维度明确做适合的事,目的是指导IT运维团队根据岗位职责和管理要求“选人做事”。
结合IT运维工作的特点,运维人员一般分为管理类、技术类和操作类三种人员岗位,管理类主要负责运维的组织管理,技术类主要负责运维技术建设以及运维活动中的技术决策等,操作类主要负责运维活动的执行等。
-
资源能力
资源主要由人员、过程和技术要素中被固化下来的能力转化而成,人员、过程和技术要素在知识、服务管理、工具支撑等方面的能力被固化下来,同时又对人员、过程和技术要素提供有力的支撑和保障,进而形成资源能力中的知识库、服务台、备件库以及运行维护工具,资源能力确保 IT 运维能“保障做事”。
组织在建设资源能力过程中,要充分重视自主知识、技术和业务流程的固化工作,从而充分发挥经验的沉淀,尤其要关注一线人员的技术资源化,从而保证质量的同时提高效率和效能建议组织可以定期收集一下一线人员针对资源的意见和建议,从而及时补充必要的资源,保持组织的运维能力的优化提升。
-
技术能力
组织需要通过自有核心技术的研发和非自有核心技术的学习,持续提升IT运维过程中发现问题和解决问题的能力,在提升IT运维效率方面是重点考虑的要素,技术要素确保IT运维能高效做事”。
-
过程
组织通过过程的制定,把人员、技术和资源要素以过程为主线串接在一起,用于指导IT运维人员按约定的方式和方法,确保IT运维能“正确做事”。
组织需要结合服务场景与运维能力策划要求,设计过程框架,明确各过程之间的关系和按口,制定服务级别、服务报告、事件、问题、变更、发布、配置、可用性和连续性、系统容量信息安全等管理过程的目标、活动和考核指标,支撑服务过程的规范化管理和服务价值实现。
-
- 智能运维
中国电子工业标准化技术协会发布的团体标准T/CESA 1172《信息技术服务 智能运维 通用要求》,给出了智能运维能力框架,包括组织治理、智能特征、智能运维场景实现、能力域和能力要素,其中能力要素是构建智能运维能力的基础。
组织需在组织治理的指导下,对智能运维场景实现提出能力建设要求,开展智能运维能力规划和建设。组织通过场景分析、场景构建、场景交付和效果评估四个过程,基于数据管理能力域提供的高质量数据,结合分析决策能力域做出合理判断或结论,并根据需要驱动自动控制能力域执行运维操作,使运维场景具备智能特征,提升智能运维水平,实现质量可靠、安全可控、效率提升、成本降低。智能运维能力框架如下图所示:
-
能力要素。智能运维的能力要素主要包括:
-
人员:运维团队需要熟悉IT运维领域的业务活动与流程,掌握自动化、大数据、人工智能、云计算、算法等技术,具备一定的智能运维研发能力。
-
技术:技术通常包括统一的标准和规范、开放的基础公共资源与服务、数据与流程及服务的互联互通等。
-
过程:智能运维定义的过程需要具备清晰界定人机界面,能够充分发挥智能化优势,实现过程优化,并考虑权限控制、风险规避。
-
数据:运维组织需要加强数据治理,保证数据质量,规范数据接口。运维应用需要围绕数据进行采集、加工、消费,提升运维智能化水平。
-
算法:可以聚焦在异常检测、根因分析、故障预测、知识图谱、健康诊断、决策分析等方面,具备有穷性、确切性、有效性等特点。
-
资源:组织在数据管理能力域数据服务中,对于资源管理,至少应根据不同场景要求,配置开放共享服务管理所需要的算力、带宽、存储等。
-
知识:知识通常包括运维技术方案及方法与步骤、运维的经验沉淀、运维对象的多维度描述、运维数据的智能挖掘结果等。
-
-
能力平台。智能运维能力平台通常具备数据管理、分析决策、自动控制等能力。其中,数据管理能力用于采集、处理、存储、展示各种运维数据。分析决策能力以感知到的数据作为输入,做出实时的运维决策,驱动自动化工具实施操作。自动控制根据运维决策,实施具体的运维操作。
-
能力应用。以运维场景为中心,通过场景分析、能力构建、服务交付、迭代调优四个关键环节,可以使运维场景具备智能特征。根据复杂程度,运维场景分为单一场景、复合场景和全局场景。
-
场景分析:是指从业务或IT本身接收对新服务或改进服务的需求,场景需求分析从业务需求、用户需求以及系统需求,不同层次阶段进行不同方式、内容以及侧重点的需求调研。
-
能力构建:是指基于运维场景分析的结果和目标要求,应用赋能平台中适合运维场景数据特点的加工处理能力、系统性设计数据的处理流程,构建符合特定运维场景需求的智能运维解决方案。
-
服务交付:是指制订详细的交付计划,准备必要的资源,评估可能存在的风险并明确规避方案,完善交付实施过程,通过服务交付检查确保运维场景的智能特征符合策划要求。
-
迭代调优:是指通过持续的迭代对智能运维场景的优化,确保投入符合智能运维具体场景的规划目标渐进式达成。
-
-
智能运维需具备若干智能特征,智能特征包括:
-
能感知:指具备灵敏、准确地识别人、活动和对象的状态的特点。
-
会描述: 指具备直观友好地展现和表达运维场景中各类信息的特点。
-
自学习:指具备积累数据、完善模型、总结规律等主动获取知识的特点。
-
会诊断:指具备对人、活动和对象进行分析、定位、判断的特点。
-
可决策:指具备综合分析,给出后续处置依据或解决方案的特点。
-
自执行:指具备对已知运维场景做出自动化处置的特点。
-
自适应:指具备自动适应环境变化,动态优化处理的特点。
-
信息安全管理
-
- CIA三要素
CIA三要素是 **保密性(Confdentiality)、完整性(Integrity)和可用性(Availability)**三个词的缩写。
保密性、完整性和可用性是信息安全最为关注的三个属性,因此这三个特性也经常被称为信息安全三元组。
-
- 信息安全管理体系
不同安全等级的安全管理机构逐步建立自己的信息系统安全组织机构管理体系,参考步骤包括:①配备安全管理人员。②建立安全职能部门。③成立安全领导小组。④主要负责人出任领导。⑤建立信息安全保密管理不萌。
-
- 网络安全等级保护
-
安全保护等级划分
第一级,等级保护对象受到破坏后,会对相关公民、法人和其他组织的合法权益造成损害,但不危害国家安全、社会秩序和公共利益;第二级,等级保护对象受到破坏后,会对相关公民、法人和其他组织的合法权益产生严重损害或特别严重损害,或者对社会秩序和公共利益造成危害,但不危害国家安全;第三级,等级保护对象受到破坏后,会对社会秩序和公共利益造成严重危害,或者对国家安全造成危害;第四级,等级保护对象受到破坏后,会对社会秩序和公共利益造成特别亚重危害,或者对国家安全造成严重危害;第五级,等级保护对象受到破坏后,会对国家安全造成特别严重危害。
-
安全保护能力等级划分
GB/T 22239《信息安全技术 网络安全等级保护基本要求》规定了不同级别的等级保护对象应具备的基本安全保护能力。
第一级安全保护能力:应能够防护免受来自个人的、拥有很少资源的威胁源发起的恶意攻击、一般的自然灾难,以及其他相当危害程度的威胁所造成的关键资源损害,在自身遭到损害后,能够恢复部分功能。
第二级安全保护能力:应能够防护免受来自外部小型组织的、拥有少量资源的威胁源发起的恶意攻击、一般的自然灾难,以及其他相当危害程度的威胁所造成的重要资源损害,能够发现重要的安全漏洞和处置安全事件,在自身遭到损害后,能够在一段时间内恢复部分功能。
第三级安全保护能力:应能够在统一安全策略下防护免受来自外部有组织的团体、拥有较为丰富资源的威胁源发起的恶意攻击、较为严重的自然灾难,以及其他相当程度的威胁所造成的主要资源损害,能够及时发现、监测攻击行为和处置安全事件,在自身遭到损害后,能够较快恢复绝大部分功能。
第四级安全保护能力:应能够在统一安全策略下防护免受来自国家级别的、敌对组织的、拥有丰富资源的威胁源发起的恶意攻击、严重的自然灾难,以及其他相当危害程度的威胁所造成的资源损害,能够及时发现、监测发现攻击行为和安全事件,在自身遭到损害后,能够迅速恢复所有功能。
第五级安全保护能力: 略。