一、运维管理的核心思路?
①
运维工作的核心目标是保持并提高用户满意度,从服务中挖掘服务,各项运维工作就应该密围绕诊目标开展。在此基础上,才能促进公司不断的发展壮大。
因此、始终将提升客户满意度作为运维服务的宗旨才能不断推动公司不断发展,让运维始于扎根,终于参天大树。
②
1、确立以业务价值为核心。业务驱动管理的管理思想面向业务要首先在IT管理的战略层面上建立“业务驱动”的IT治理和管理思想,使得业务部门的目标和IT运维的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。
2、建立关键业务服务模型。今天的业务部门对应用程序的依赖性比过去更强。
3、管理信息共享
出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,如网络监控、系统监控、数据库监控工具等。
4、根源问题定位
业务服务管理能够提供有效的根源问题定位能力,它着眼于企业的核心业务系统,通过集中与业务相关的IT信息,根据业务逻辑和IT组件之间的关联关系进行建模。
③
运维管理
运维管理( IT Operations Management)帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。
运维内容
IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:
第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);
第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
IT运维
第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。
三大法则
第一法则,运维员不得危害服务器的安全运行,偷窥篡改服务上的数据,或袖手旁观服务器受到入侵;
第二法则,运维员必须保护自己,除非违背第一法则;
第三法则,运维员必须服从运维经理的命令,除非违背第一和第二法则。
运维现状
拥有数量众多的昂贵的Unix主机支撑80%的信息化关键核心业务。这些主机的帐号管理存在安全漏洞和隐患,存在僵死帐号,共用帐号等问题。
信息化业务的神经节点多由价格不菲的交换机、路由器支撑。这些关键神经的管理十分依赖人来维护。
设备操作无法有效记录,留下审查凭证,完全由人控制的帐号无形增加安全隐患。
服务器和网络设备的认证强度不高,通常都只有静态口令认证方式,并且静态口令经常是弱口令,导致核心服务器存在越权访问的风险。
信息化应用的复杂度决定了多角色(系统/数据库/安全/审计管理员/代维厂商等)交叉管理。合作伙伴的授权无法有效监督,发生故障后无法快速、全面、有效举证,为业务增长带来瓶颈。
运维人员使用无所不能的Telnet/SSH远程管理工具,为内部不法员工,不满员工,和离职员工故意破坏提供了机会,因没有可靠的追查和定位机制,造成损失且无法追究责任
“好马也会失前蹄。”有合法权限的用户因为操作疏忽,操作失误,造成损失,无法鉴定。
发展趋势
中国大多数企业的IT建设正走到提高IT运维管理水平的阶段,基础设施建设已经布局完成,接下来的工作就是如何将基础设施的效率发挥出来,这就需要通过提高IT运维水平来提升基础设施运行效率。
那么,如何提高企业IT运维水平的呢,很重要的一点,就是应根据企业个体的IT架构和运维管理需求,来实施针对性的IT运维管理解决方案,科学的流程和业务的具体结合。
此外,我们也看到了许多标杆企业IT运维水平的提高给企业发展所带来的好处,拿金融行业举例来说,如果离开了IT系统,离开了IT运维管理,各种金融业务显然就无法正常展开。
同样的,其他企业和机构在工业化和信息化发展的过程中也越来越依赖于IT系统。
特别是在目前经济条件下,如果企业的IT运维水平好的话,它可以直接降低运营成本,提高服务响应效率,给企业带来新的利润增长点。
可以说,IT运维管理的重要性直接提升了IT部门在企业的地位,逐渐从一个支持部门向企业的核心价值部门转变,这也是一个企业信息化建设历程中不断前进的必须趋势。
IT运维解决方案是根据用户的运维需求而具体来制定的,因此IT运维厂商的聚焦点,不应该再是单独提供软件式的产品服务,更多的需要全面考虑用户需求,针对用户不断增长的运维需求去改进、优化产品,并推出基于IT基础设施管理的运维解决方案。
以用户满意为服务宗旨,打造IT运维管理、IT综合管理以及业务服务管理解决方案提供商,这将是所有国产IT运维厂商迅速成长的必经之路,也是更多企业提高IT运维管理水平的最佳“捷径”
二、一体化运维管理思路?
一体化是指从日常监控、周期巡检、服务受理、故障处理、平台维护、配置管理、安全管理等方面着手,利用自动化运维工具,实现对物理资源、虚拟资源的统一管理,提供资源管理、统计、监控、调度、服务管控等端到端的综合管理能力。
三、基础设施运维管理的思路和方法?
1、 通过 zabbix 监控所有的网络设备,比如在线状态,流量,监控所有的服务器,比如 http 服务、磁盘空间、Cpu、内存、流量等,整体上监控与预警,保证了业务
2、 通过 SCCM 的部署,实现远程支持,补丁分发,软件分发,软件资产统计,合理的取消 用户本地管理员权限,而不影响用户进行自助软件的安装。
3、 OTRS 服务支持管理系统的上线,用户通过系统报故障,一线支持组接到故障进行远程 处理,如果远程处理不了,再转二线人员处理或资深运维。
四、运维岗位职责和建议?
运维岗位职责::
(一)负责制定济南科技中心运行值班管理的相关规章制度,并负责组织实施和考核;
(二)负责济南科技中心机房的安全运行管理,确保机房安全、稳定、高效运行;
(三)负责济南科技中心各管理系统和监控系统的日常运行监控和日常操作,保障各类业务正常开展;
(四)负责做好济南科技中心机房和监控室的出入管理;
(五)负责运行值班相关登记薄的格式制定、更新,并按登记薄格式进行及时登记,并定期存档保管;
(六)负责记录运行事件,并及时将异常情况转相应二线支持人员处理,跟踪事件处理过程;
(七)配合维护人员制定济南科技中心机房详细、可行的应急方案及措施,并定期组织人员进行模拟演练,有效防范各类意外情况和突发事件;
(八)配合做好机房设备和应用系统的安装调试、系统优化、版本升级及问题反馈等技术支持工作;
(九)根据外包管理相关制度,对外包人员进行统一管理考核,并对考核结果及时与外包公司反馈;
(十)每周、月汇总系统运行情况,提交事件统计、批量情况、故障处置、生产变更、报警情况等报表;
(十一)负责做好轮训人员基础培训及岗位安排;
(十二)完成领导交办的其他工作。
运维合理化建议:
运维团队工作要求运维团队管理要求
1、员工要求
1、个人应重视工作行为规范。(严格执行上下班考勤制度要求;注意个人工作环境;严格执行服务行为规范、服务用语规范)
2、工作应积极主动、热情,要按照IT运维服务手册的要求开展相关工作。
3、要建立顺畅的问题反映机制,遇到突发事件和问题,要及时反映给现场项目执行经理或者运维团队项目经理。
2、团队要求
1、要加强互相了解、加强沟通、分工合作,紧密合作形成一个工作团队。
2、IT运维服务团队服从统一的指挥、协调,要在规范的IT运维流程指导下(系统流程引导),在运维管理平台上有序开展相关工作(服务、问题、变更等)。
3、职责明确,制订合理的的工作目标。下一步将和每位员工签定岗位责任书,明确工作目标。
4、要做好经验交流、分析,召开以周为频次的工作总结例会,并形成常态化。应总结出运维工作中存在的问题,提出合理化建议,每月进行系统运行总结报告,体现出运维工作的价值,为系统升级、优化提供依据。
五、it运维管理方法?
IT运维管理—体化模式的创新点
内容一体化:传统模式下的管理是分散式、粗放式管理,各单位、部门根据自身信息化建设实际情况,建立了相应的管理体系,承担相对独立的内部管理职能。管理的内容、要求缺乏统一标准,发展水平不均衡,项目建设,数据共享和管理水平参差不齐,管理缺位,不到位现象不可避免。
一体化管理模式是将多个管理体系经过有机整合,按照系统化原则形成相互统一、相互协调、相互补充、相互兼容的有机整体。在全面梳理各方面内容和要素的基础上,对各个管理点进行共性抽取、差异分析和整合归类,确保整合后的管理体系覆盖IT运维管理的每个环节,管理内容明确,管理标准统一,便于组织实施。
六、it部门存在的不足与改进措施?
不足:
1、 IT运维机制不完善,流程操作层面缺乏统一
没有建立起稳定、规范的IT运维机制。
现有的IT运维流程的操作层面缺乏统一。
如事件单提交之后,事件预判和优先级的设定缺少统一、规范的指导文档,仅以人员的主观经验或约定俗成的方式指导事件的处理过程。
有识别但无规范,有处理但无管理,有人员但忙于救火,有工具但支持力度不足。
因此,“轻规范、重维护”的IT运维现状容易造成因个体技能差异带来IT运维的不稳定,直接影响维护体系的效果。
2、经验不少,知识不多,过度依赖核心人员
在实际工作中积累的、有价值的经验仅存在于头脑之中,未能作为书面的知识记录规范地保存下来。
经验始终仅能在小范围内得到传播和继承,无法在更大的范围内体现其价值。
这样导致了无论是事件性质的识别、优先级的界定,还是疑难问题的分析诊断,均汇总至少数核心人员进行处理。
这样不仅增加了少数核心人员的工作量,也容易产生工作流程的“瓶颈”,降低运维团队整体的事件及问题处理效率。
3、IT运维的绩效考核机制尚不完善
主观的绩效考核难执行,客观的绩效考核难制定,模糊的绩效考核难见效。
目前在绩效考核方面虽然采用填写工作表的方式对不同岗位的工作时间进行收集、评测和考核,在一定程度上体现了IT运维人员的工作量情况,但还是很难全面准确的反映IT运维人员真实的工作绩效表现。
因此,IT运维人员绩效考核机制需要进一步完善,帮助组织构建奖惩分明的文化和环境,推动IT运维团队的良性持续的发展。
4、 IT基础架构管理工具欠缺
基于门户、财务管理、采购管理、人事管理、文件服务等构成了公司的核心业务系统。
这些复杂的核心系统保证了整体业务的顺畅运行。
但作为支撑核心系统运行的IT基础架构,目前仅有H3C的网络监控和基于Landesk的桌面管理系统。
现有的IT管理工具偏重于技术层面的故障发现及预警,对于发现的事件虽有相应的管理流程汇报,但仍未找到合适的工具为其提供全面、安全、稳定的运行支持。
5、缺乏有效、完善的CMDB(配置项管理数据库)
目前运行维护室仅有对关键应用系统相关IT设备设施的初步梳理,虽然在一定程度上收集了部分配置项信息,但是当前仅限于关键业务的、缺乏工具支持的、简单的CMDB建设很难满足今后全面实施信息化的需求。
CMDB的建设是一个长期而艰巨的任务,不仅需要更详细的配置项属性数据、更准确的相互关系信息,而且也需要一个科学有效的配置管理模式及工具予以支持。
6、缺少面向用户的IT服务报告
运行维护室对核心系统运行提供固定周期的IT 管理报告,如:系统运行报告、机房环境报告、备份报告、年度报告等等。但由于IT管理报告的内容多以技术语言提交且仅限部门内部和少数领导使用。作为外部用户的业务部门不仅无法接触,而且受专业所限难以理解,无法充分利用IT管理报告提供的信息。
在期望从成本中心向利润中心转型的过程中,运行维护室面向外部用户时不能再以技术语言提交IT管理报告,而应该提交符合一般用户阅读需要的IT服务报告,实现IT运维的“服务于用户,为用户所用”的目的。
改进措施:
1、建立统一的IT运维管理体系,完善并规范IT运维流程
参照ITIL最佳实践并结合公司的实际情况,将IT运维管理规范化为一系列标准流程,包括服务台、事件管理、问题管理、变更管理、发布管理、配置管理和服务级别管理等。
然后通过IT服务管理工具将各个IT运维流程集中在同一个平台上进行管理。
基于标准的流程体系和统一的管理平台,与IT运维相关的资源(包括部门、人员)得以有效整合,并采用相互识别的“相同语言”进行深入、充分的沟通,提高生产效率和信息传递的及时性。
2、建立基于IT运维管理流程的IT人员绩效管理和激励机制
根据公司全面实施信息化的要求,建议运行维护室组建具备完善的专业知识和管理能力的IT运维管理团队。
因此,建立与IT运维管理流程体系相符的人员绩效管理及激励机制显得尤为重要。
建立量化KPI,对包括服务效率及服务质量等多方面进行业绩考核。
通过IT运维管理系统平台,对IT运维人员的工作进行数量和质量上的记录、统计和分析。
在基于ITIL流程明确IT人员岗位职责的基础上,定义关键考核指标并通过IT运维管理系统收集数据,进行整理、分析产生绩效报告,最终实现IT绩效管理的信息化。
3、提供面向客户的IT服务报告,为业务部门和IT运维管理提供决策依据
参考ITIL及ISO20000的最佳实践,可建立专门的工作流程对IT服务报告及IT运维服务管理信息作进一步的完善。
实现向客户或业务部门以“客户化的语言”提供约定的服务信息,同时也能为内部IT运维提供有价值的管理信息。
如:某个时间段内那些方面的故障出现的数量最多;那些方面的故障解决的效率最高或最低;IT维护人员的工作负荷统计;问题分布在哪些系统或设备等。
这些服务信息统计,能帮助IT运维管理和决策部门进行决策和趋势分析,从而做到对IT系统中的各类问题和相应的服务状况进行全面掌握和了解。
4、支持经验和知识的共享化
提供丰富知识库和完善管理。
用户通过知识库,如FAQ、关键词检索等,可以初步搜寻解决方法,这样问题就会以最小的资源开销和最快的处理效率得以解决;IT维护人员通过知识库及时、准确地选择解决最优方案,可解决大部分常规问题;资深运维人员、专家,可以根据故障发生的频度,把经过实践证明正确的解决方案形成知识库,供其他运维人员使用;另外,相关应用系统的业务处理人员可以通过共享的知识库或实践指导库,提交或者获取相关业务处理的知识。
5、建立并完善CMDB
实现用户、资产、以往问题的历史记录等可查询、可追溯IT运维管理系统通过组建CMDB对用户信息、资产信息进行记录和维护,并把每个事件/问题与用户以及发生故障的资产对应起来,形成历史记录以便查询和借鉴。
如:某个用户报告某路由器通讯故障,维护人员就可以根据资产编号查询到该路由器以往的故障状况。
如该路由器出现过多次故障,并且都是线路质量较差,维护人员则可以根据这一依据向有关部门提出线路维护申请。
6、推行服务级别管理,提高客户对IT运维的服务满意度
在“内部市场化”的要求下,最终用户的服务满意与否将成为IT运维质量的考评尺度。
为此,推行服务级别管理有利于明确用户/客户的业务需求并使之规范化、标准化。
因为只有在服务双方都认可的服务范围内提供合乎需求的IT服务才能最终获得用户/客户满意的评价。
比如:故障的响应时间约定、备品备件的替换原则、约定的设备巡检日期等。
通过服务级别管理不仅可以提供清晰、规范的IT运维服务,根据服务级别管理的流程可以对服务的结果进行持续改进。