事件报告和日志logging

我正在研究可以让我跟踪和logging在我的基础设施上发生的所有事件的工具（或build议）。

我们有几台服务器（50+），而且这个数字将来会增加，所以我想更好地了解在一个月左右的时间内可能会出错的事情，并帮助我改进那些容易发生故障的系统或服务。

例如，如果Web服务器在某个实例上失败，或者由于备份服务器上没有可用空间或者存在DDoS攻击，备份尚未完成，我想指出（何时，为什么，在哪里，如何做我们修好了等等）。

我们拥有中央监控系统（Check_MK，Logstash + Kibana，networkingstream量分析器…），并提供了警报，我可以直接从Check_MK生成可用性报告，但该报告不准确，我们与客户分享。我需要这是为了我们的内部使用。

我已经研究了一点，没有发现很多 – 这个或一个工具没有真正的标准，所以我需要一个已经处理这个工具的人的build议，或者如果没有工具（我们是非常有能力自己开发一个）什么是logging这样的事情的最佳做法？你logging什么？

旧的回答是由于误解而产生的 。保留以供参考：

实际上有多种工具可以让你想要什么。

例如：

logstash（你已经知道了）

graylog

普罗米修斯

他们中的每一个都要求您以某种方式定义触发器，以便通知您。然而，为了多种工具而深入研究这个问题对于这个平台来说是非常重要的。

在构build真正有用的监控和警报系统时，需要考虑多个主要领域。

收集/监测/聚合：

系统的可用性（硬件，软件，服务）

这些系统运行中的错误（日志，正确的响应）

随着时间的推移而变化（系统参数（磁盘空间和负载，服务的响应时间，新版本的推出）

然后需要定义警报级别：

主机/服务向上/向下

进程运行

通过x.xx，x.xx，x.xx加载

磁盘空间在x.xx下

数据增长率大于x.xx MB /天

http 500响应> x /秒

等等

我们使用我们的票务系统（阿拉西亚杰拉）这个东西：

我们创build了一个项目“操作事件”，接收者（观察者）在项目级执行
和一个新的任务types“事件”，所有这些项目都有自己的表单域。

所以如果发生了一些事件，我们会打开一张新的票据，填写我们所知道的事件，并在事件发生的时间内保持最新状态。事件确定后处理（主要是根本原因分析）完成后，我们closures这个问题。

优点：

每个利益相关者都从一开始就参与（或者至less知情）
顾客的支持有一个中心点，当顾客抱怨时寻找信息
门票系统允许工作日志和讨论
我们有一个档案供将来参考
例如，我们可以使用jira的内置报告function将关键绩效指标（KPI）报告为“恢复时间”（time-to-restore）