完备的监控应覆盖什么

细心的读者可能会发现,上一篇《运维的价值和目标拆解》中有个脑图,其中监控完备这部分是没有展开的。那么对于一个互联网公司,要对哪些方面做了监控,才能称得上完备?今天笔者抛砖引玉,给出一个列表,不足之处,欢迎业界同仁补充,共同进步:)

网络监控

终端客户要想访问你的服务,势必要经过一系列网络链路,这是我们的第一个着眼点

网络质量

全国各地,不同的地区,不同的运营商,访问你的网站的质量,比如延迟是多少,是否不通了

公网出口

服务部署在某个IDC,IDC的公网出口是不是拥塞了,是不是断了

专线带宽

服务可能是依赖其他服务的,而被依赖的服务却不在同一个机房,中间通过专线连通,那么专线的质量就需要关注了,典型的比如丢包情况,是否连通,带宽是否到达上限

网络设备

各种交换机、路由器,是不是挂了,是不是丢包了,硬件是否故障了

机器监控

这个大家通常不会忽略,毕竟你的服务是在机器上跑的嘛,简单唠叨一下

机器硬件

比如磁盘是不是只读了,raid是不是故障了,内存是不是故障了

机器运行态

比如磁盘是不是满了,CPU是不是持续跑满,内存是不是快吃光了,IO持续100%,网卡是不是丢包了,系统进程总数是不是过多了,打开的文件句柄是不是过多了。

机器配置

比如ulimit配置是否合理,一些系统参数比如nf_conntrack_max配置是否合理。

系统进程

比如ntp是否工作正常,系统时间是否偏差太大,sshd进程是否工作正常,crond是否挂了

业务监控

服务本身运行的情况,自然也是要监控的

存活性

进程是否还在,端口是否还在监听,LOG是否不再滚动

异常日志

比如抛了Exception,出现了ERROR、FATAL、ALERT等关键字

健康指标

这个经常容易忽视,需要研发配合,能够反映服务自身健康状况的指标,跟业务自身相关。比如MQ,能够反映MQ健康状况的可能是消息堆积量。

接口监控

服务对外提供的API,其成功率、延迟情况、QPS等等。一些人做的域名监控也可以归到这里。

周边依赖

比如你依赖的其他服务是否健康,比如用到的HTTPS证书是否过期

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 本文转自运维之路(id:HuashengPeng001)订阅号 近年来,随着计算机技术的飞速发展,以及行业信息的共...
    大数据之心阅读 5,646评论 0 34
  • 近年来,随着计算机技术的飞速发展,以及行业信息的共享,传统企业的运维己不再固步自封,日新月异的计算技术发展推动着企...
    Lionelcox阅读 4,448评论 0 15
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 11,262评论 6 13
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,156评论 19 139
  • 让人羞耻的是罪,不是福音。令人羞耻的是羞于开口讲福音。很难找到羞于表达对所爱之人的爱慕,除非爱从来就没有开过花。那...
    杨涛的诗阅读 245评论 0 0