作者:孙田,新炬网络高级技术专家。
生产环境提供关键业务应用的核心计算, 它对于企业的重要性无异于心脏之于人体。随着繁忙的业务处理带来巨大的压力,生产环境要确保关键业务7×24小时连续运行,才能保证业务的稳定开展,并为业务发展输送源源不绝的动力。因此对于系统的高可用性及运维能力提出了非常高的要求,当前运维方式存在的缺陷及不足:
1.处理不够及时,非工作时间收到某项告警,登录环境耗时长,无法第一时间进行操作。
2.处理方法严重依赖一线数据库管理员的技术水平,后端专家指导沟通成本过高,主管无法有效审核高危操作。
3.客户对于处理操作感知度低,无法第一时间获取到实时情况。
4.技术方案不规范,易出现人为故障。
5.与后端专家沟通时传输信息,易造成关键敏感信息泄露。
面对复杂的业务监控和问题诊断,通过大数据分析找到指标和事件之间的关联关系,进行因果关系推导,并最终定位故障,制定解决方案。使运维能够更加自动化、智能化地达成保证服务高可用性的目标,即快速的问题发现、分析定位或止损。
采用企业级的开源分布式监控解决方案Zabbix,并在该方案的基础上进行扩展,出现性能告警时不仅通过各种渠道进行通知,更可以通过定制APP进行进一步日志信息获取、方案智能推荐和自动执行,达到远程智能处理的效果,实现智能运维。如下图所示:
使用Zabbix构建基础服务端,Zabbix是一个企业级的开源分布式监控解决方案。Zabbix支持多种网络方式下的监控,可通过分布式的方式部署和安装监控代理,整个架构如下图所示:
Server:即安装zabbix服务的服务器,是最核心的部份,支持多种操作系统, Zabbix Server运行在主流LAMP环境下,资源要求较低。
Agent:即安装在被监控设备上的zabbix代理,被监控设备上的数据由代理收集后统一上传到服务器端由服务器端收集、整理并呈现。目前已有的agent基本支持市面常见的OS。
SNMP:为agent的一种,指支持SNMP协议的设备,通过设定SNMP的参数将相关监控数据传送至服务器端,支持各类常见的网络设备。
IPMI:Agent的另一种方式,应用于设备的物理性能监控,如设备的温度、风扇的转速等。
1.使用Zabbix推送性能报表至app端,实时可查询性能报表,通过基线比对,随时随地了解系统健康状况。监控系统进行指标监控,快速发现异常情况。同时异常检测系统支持标注与反馈,自学习能力可以根据需求进行动态调整,支持系统自动参数学习调整,系统可自动根据报警量的多少,进行参数训练,把异常检测参数自调整到合理范围。
2.制定角色功能,包含一线工程师、后端专家、主管、客户等角色,赋予不同功能及权限,共同完成运维工作。
3.分析运用已有数据及相应日志,并把服务状态、问题影响分析等可视化。自动学习并理解故障的趋势和模式,自动发现日志中相应错误信息。经过监控部署,实现全方位的异常自动检测覆盖,同时,在系统刚出现故障征兆,有损之前就进行处理并解决,实现完整的智能化监控系统解决方案。
上一篇:玩转tuxedo资源池
下一篇:CMS内存回收机制分析