作者:刘洋,新炬网络高级技术专家。
目前维护主要在做的就是处理资源配置,监控告警,业务故障等。每天都在处理成堆的工单,忙忙碌碌,但大多都是重复的事,偶尔难得会碰到几个大故障。
但是随着企业系统建设的不断的新需求,并且逐步转变为敏捷,运维人员的挑战越来越大,越来越频繁的系统升级对于目前运维人员来讲就是一个黑盒子,无法评估系统的支撑能力,无法知道未来的火将会在哪里燃烧,只能哪里起火就去哪里救火,这样只能被系统所左右,不打开这个盒子,只能给维护带来无穷的困境。
有同事曾提出过运维应该对系统架构进行梳理,从业务层,数据层,架构层做分析和管控然后针对系统升级过程中做出影响度分析,在系统验收阶段,关注被影响的业务从而达到降低故障的发生率。这不失为一个好办法,然而要想运维能够过上好日子,除了监控线上各类资源,设备,数据,存储及业务管理外,更应该着眼于系统的质量本身,从根本上去解决运维无下手之地的问题。每一次系统升级都做了哪些变动,会对系统稳定性造成什么影响。
运维人员应该打开这个黑盒子,参与到系统的质量把控中:
参与整个过程。在设计评审中把控监督设计是否合理有效,是否合理的利用了系统资源,是否具有高可用性,是否具有可扩展性和可维护性,是否具备可配置化。
严格评审监控周边配置。缓存配置,数据库连接配置,进程,线程参数,系统配置文件,数据库脚本等。
增加持续验收环节。往往测试人员测试完成之后,系统就准备上线了,然而系统是否真正满足真正客户要求,是否存在问题,是否持续稳定都无法评估。验收环节首先除了验收产品新功能之外更需要验收系统跟客户之间的触点功能是否正常稳定,然后再让系统持续不间断运行,再监控系统的稳定性及性能是否有严重影响,从而达到真正验收的目的。
然而无论何种运维手段,运维都不是让很多机器正常运作,而是需要把系统质量,系统稳定性和用户体验作为运维本质,高质量,快的响应速度,好的用户体验的系统才是我们应该向用户交付的最终产物。
上一篇:软件测试经验分享
下一篇:一个不算成功的项目思考