发布网友 发布时间:2023-03-23 08:29
共1个回答
热心网友 时间:2023-10-13 19:16
IT运维服务体系建议遵循“易使用、易总结、易管理”的顺序,客观问题由重到轻解决,以最大程度加快IT运维服务体系建设。运维服务体系由运维服务体系、运维服务流程、运维服务机构、运维服务团队、运维技术服务平台、运维对象六部分组成,涉及系统、人、技术、对象四个要素。
运维体系是规范运维管理的基本保障,也是流程建立的基础。运维机构相关人员按照制度要求和标准化流程,采用先进的运维管理平台,对各类运维对象进行标准化的运行管理和技术操作。
IT故障定位是指对故障的直接原因或根本原因的诊断,故障定位有助于故障恢复行动更加有效。故障定位通常是整个故障过程中最耗时的环节。定位的目标是快速恢复,而不是找到问题的根源,这是问题管理的职责。通常情况下,大部分可用性故障是通过运维专家经验的假设判断或已知方案的实施来解决的,但有些故障,尤其是性能、使用逻辑和数据故障,需要多方协作和工具支持。
在数据中心,很多技术运维人员往往具有敏锐的发现已知故障的能力,能够根据自己遇到的故障迅速找到问题的根源。更有资深专家可以通过系统内部原理,从一些普遍的故障现象中猜出某一现象背后可能的原因。根据故障的表象判断可能的诊断路径,是一个运维技术专家必备的能力,往往是通过大量的运维案例积累起来的。这也是专家不同于普通运维人员的地方。准确的数据收集实际上依赖于运维知识。
比如我们要做故障分析,这就需要用到CPU资源,那么如何收集数据呢?求某段时间内CPU使用率的平均值或最高阈值?CPU利用率100%会有问题吗?其实没那么简单。事实上,CPU的突然峰值大多是无害的,可能不会对我们的系统产生不良影响。只有当长期CPU利用率接近高水平时,CPU才有可能出现资源不足的瓶颈,从而影响系统的性能。
一、运行维护处理原则
IT系统运行过程中,难免会出现问题或故障。故障排除的原则可以总结为两条:
所有措施或方法都以快速恢复业务为优先。
bug或匹配需要及时升级优化。
1.1.恢复业务是当务之急
业务恢复优先级意味着无论在任何情况下出现何种级别的故障,都应该首先恢复业务。这和故障定位不一样,很多人会有歧义,认为没有找到问题的根源,业务怎么恢复?这里有一个简单的例子:
如果A、B系统调试的使用最后失败,如何发现问题并解决?
(1)从使用a的服务器Ping使用B的网络,如果端口和网络连接,那么直接绑定服务器B的主机。
(2)排查问题,找出A和B之间会经过哪些链路,找出有问题的链路,包括跨服务器区域、跨网段等。如HA连接异常,则重启或扩展并恢复。
通常,第一种方法需要很短的时间。如果A和B之间有跨机房访问,那么第一种方法需要更长的时间来检查。虽然破坏了A和B之间的架构平衡,但是可以立即生效,也就是我们所说的优先恢复业务。
1.2.及时升级
这个很好理解。当任何故障发生时,任何人都只能对故障的影响做出简单的预测,因此有必要及时升级到您的领导,以便他掌握第一手信息和协调资源
4.大型厂商的安全升级包或设备或升级系统;
二、运维模式
根据运维工作要求和运维响应时间,决定构建完整的运维方案,确定服务标准。现场软硬件巡视是增强运维计划执行力的主要途径。通常情况下,数据中心的运维工作流程如下:
(1)构建完整的运维计划:在整个运维过程中,计划是整个工作流程的核心。按照计划先行的原则,根据本年度工作计划制定分项工作计划和时间维度计划,并按照流程和计划实施和保障。
(2)现场检查的重要性:现场检查计划是运维工作计划的重点。通过现场检查,可以找出系统的薄弱环节、关键业务节点和隐患,特别是制定应急预案和备件计划非常重要。
(3)执行力的重要性:运维计划的实施是运维工作的重点。运维计划实施过程中,应严格按照流程规范进行运维,并注意控制,降低运维风险。对于运维的实施,应定期向用户进行反馈。
(4)运维服务标准:签订售后服务承诺书,与客户约定服务水平。承诺的服务水平,包括提供的资源(备件等。)和所提供的方案,应严格按协议执行。
三。操作和维护处理方法
第一,ITIL,尤其是ITIL 4,是新时代国际IT服务标准的最新版本,对于敏感的IT来说也是一个全新的版本。它包括ITIL V3的特性,并增加了对DevOps等的支持。
其次是敏感的IT运维方*SRE(Site Reliability Engineering),即互联网和公有云的运维服务方*;
第三,基础设施即代码集成了基础设施自动化流程、运维以及全球最佳实践和案例。
第四,加强运维与开发的联系,整合IT服务管理的组织、文化和流程
程与DevOps进行结合。
运行维护服务包括,信息系统相关的网络设备、安全设备、机房基础设施、主机设备、操作系统、数据库和存储设备及其他信息系统的运行维护与安全防范服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。
用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型使用软件(如:数据库软件、中间件软件等)、业务使用软件等。
故障处理一般会分为三个阶段,故障前,故障中和故障后,故障前是指故障的定位分析,故障中是指故障处理过程,故障后是指故障总结,故障总结很重要。
(一)从故障服务来看运维处理故障方法
如果从故障服务来看,运维恢复业务最重要的三个方法是: 隔离 重启 降级
(1)隔离
隔离是指对故障的对象从集群中抽离的过程,目的是让故障对象不在提供服务,隔离的方法包括以下两种,按照常用频率排序:
调整上游权重为零,如果架构上有自检测机制,那么也可以直接停止故障对象的服务,让上游健康探测时效。
通过绑定hosts或者配置路由的方式,绕开故障对象。比如智能路由管理域关闭某一条线路。这里需要注意的是,防止雪崩效应。
(2)重启
重启包括服务重启和服务器重启(os重启)两种,在发生故障中,任何中涉及到的环节,都可以重启来完成,重启的一般顺序是,故障对象>故障对象上游>故障对象下游,一般离故障对象越远,重启顺序越靠后。
(3)降级
降级是指为了防止产生更大的故障所采取的一种预案,一般而言,降级一定不是当下生产的给用户的最优状态,即使没有技术影响,也会或多或少带来一些业务的影响,虽然用户可以通过其他方式临时回复一些业务,但会带来不好的用户体验和一些用户影响。
降级不仅仅是运维的事情,要联合业务研发或者说推动业务研发一起去实施,因此做任何一个项目时,首要考虑的不是这个项目能取得多少业绩,而是要考虑的是,如果出现异常怎么办?
项目如此,核心使用和组件也要如此,作为使用负责人,必须要考虑的是,如果这个对象发生重大故障时,是否有预案可以使用,并且要把这些预案触发条件,执行人等都要明确下来。
降级,从某种角度来说,是运维的最后保命手段,必须要注意。
上述操作方法,尤其是重启和隔离有一个重要的前提,那就是,对象必须是无状态的,如果需要开发重试,那么要求必须是幂等的。对象无状态除非是非常特殊的业务,可以临时存在外,其余是不可以的,所以生产上对象应该只有三种状态:
(二)从故障影响方去看运维故障处理方法
首先,故障处理过程中会遇到系统故障所涉及的各个内部或外部组织架构,故障处理一般需要有以下三类人同时进行:
? 信息传递者:他们的职责是对故障处理,故障定位传递有效信息,同时对外部传递故障进展信息;
? 故障定位者:他们的职责是当故障处理者方法失效或者需要查找问题根因时,解决故障;
? 故障处理者:他们的职责就是尽快恢复业务。
对于IT运维系统来说,这三类人往往不会同时出现,比如在凌晨值班时,只需要故障处理者处理即可,恢复业务后,第二天由故障定位者去找根因及优化措施。
另外,一个故障发生后,影响方会分为两类:
(1)内部用户
内部用户包括内部使用自身调用问题和内部使用人员发现问题,方法类似外部用户。
(2)外部用户
外部用户的处理会比较麻烦,处理的思路是,如何把外部用户转变成内部用户,比如,一个供应商打不开公司的网站,这时要做的是有两个方面:
如果上述两个方面都不行,那么就比较麻烦了,这时要收集一些必要的外部用户信息才能进行处理,比如出口IP,所用客户端版本等等,这里建议收集信息有个模版,一次性完成,因为外部用户处理时效往往会花在沟通成本上。
更多相关大咖视频课程请在苹果App Store 或各安卓市场下载“技福小咖App”学习。