事件报告和日志logging

我正在研究可以让我跟踪和logging在我的基础设施上发生的所有事件的工具(或build议)。

我们有几台服务器(50+),而且这个数字将来会增加,所以我想更好地了解在一个月左右的时间内可能会出错的事情,并帮助我改进那些容易发生故障的系统或服务。

例如,如果Web服务器在某个实例上失败,或者由于备份服务器上没有可用空间或者存在DDoS攻击,备份尚未完成,我想指出(何时,为什么,在哪里,如何做我们修好了等等)。

我们拥有中央监控系统(Check_MK,Logstash + Kibana,networkingstream量分析器…),并提供了警报,我可以直接从Check_MK生成可用性报告,但该报告不准确,我们与客户分享。 我需要这是为了我们的内部使用。

我已经研究了一点,没有发现很多 – 这个或一个工具没有真正的标准,所以我需要一个已经处理这个工具的人的build议,或者如果没有工具(我们是非常有能力自己开发一个)什么是logging这样的事情的最佳做法? 你logging什么?

旧的回答是由于误解而产生的 。 保留以供参考:


实际上有多种工具可以让你想要什么。

例如:

  • logstash(你已经知道了)
  • graylog
  • 普罗米修斯

他们中的每一个都要求您以某种方式定义触发器,以便通知您。 然而,为了多种工具而深入研究这个问题对于这个平台来说是非常重要的。

在构build真正有用的监控和警报系统时,需要考虑多个主要领域。

收集/监测/聚合:

  • 系统的可用性(硬件,软件,服务)
  • 这些系统运行中的错误(日志,正确的响应)
  • 随着时间的推移而变化(系统参数(磁盘空间和负载,服务的响应时间,新版本的推出)

然后需要定义警报级别:

  • 主机/服务向上/向下
  • 进程运行
  • 通过x.xx,x.xx,x.xx加载
  • 磁盘空间在x.xx下
  • 数据增长率大于x.xx MB /天
  • http 500响应> x /秒
  • 等等

我们使用我们的票务系统(阿拉西亚杰拉)这个东西:

  • 我们创build了一个项目“操作事件”,接收者(观察者)在项目级执行
  • 和一个新的任务types“事件”,所有这些项目都有自己的表单域。

所以如果发生了一些事件,我们会打开一张新的票据,填写我们所知道的事件,并在事件发生的时间内保持最新状态。 事件确定后处理(主要是根本原因分析)完成后,我们closures这个问题。

优点:

  • 每个利益相关者都从一开始就参与(或者至less知情)
  • 顾客的支持有一个中心点,当顾客抱怨时寻找信息
  • 门票系统允许工作日志和讨论
  • 我们有一个档案供将来参考
  • 例如,我们可以使用jira的内置报告function将关键绩效指标(KPI)报告为“恢复时间”(time-to-restore)