我正在研究可以让我跟踪和logging在我的基础设施上发生的所有事件的工具(或build议)。
我们有几台服务器(50+),而且这个数字将来会增加,所以我想更好地了解在一个月左右的时间内可能会出错的事情,并帮助我改进那些容易发生故障的系统或服务。
例如,如果Web服务器在某个实例上失败,或者由于备份服务器上没有可用空间或者存在DDoS攻击,备份尚未完成,我想指出(何时,为什么,在哪里,如何做我们修好了等等)。
我们拥有中央监控系统(Check_MK,Logstash + Kibana,networkingstream量分析器…),并提供了警报,我可以直接从Check_MK生成可用性报告,但该报告不准确,我们与客户分享。 我需要这是为了我们的内部使用。
我已经研究了一点,没有发现很多 – 这个或一个工具没有真正的标准,所以我需要一个已经处理这个工具的人的build议,或者如果没有工具(我们是非常有能力自己开发一个)什么是logging这样的事情的最佳做法? 你logging什么?
旧的回答是由于误解而产生的 。 保留以供参考:
实际上有多种工具可以让你想要什么。
例如:
- logstash(你已经知道了)
- graylog
- 普罗米修斯
他们中的每一个都要求您以某种方式定义触发器,以便通知您。 然而,为了多种工具而深入研究这个问题对于这个平台来说是非常重要的。
在构build真正有用的监控和警报系统时,需要考虑多个主要领域。
收集/监测/聚合:
- 系统的可用性(硬件,软件,服务)
- 这些系统运行中的错误(日志,正确的响应)
- 随着时间的推移而变化(系统参数(磁盘空间和负载,服务的响应时间,新版本的推出)
然后需要定义警报级别:
- 主机/服务向上/向下
- 进程运行
- 通过x.xx,x.xx,x.xx加载
- 磁盘空间在x.xx下
- 数据增长率大于x.xx MB /天
- http 500响应> x /秒
- 等等
我们使用我们的票务系统(阿拉西亚杰拉)这个东西:
所以如果发生了一些事件,我们会打开一张新的票据,填写我们所知道的事件,并在事件发生的时间内保持最新状态。 事件确定后处理(主要是根本原因分析)完成后,我们closures这个问题。
优点: