服务器每两周在同一时间崩溃

几个月前,我们的服务器每隔14天开始崩溃,同时(每次大约11:04)。 我们很确定这不是某种硬件故障,因为硬件故障往往是随机的。

服务器突然停止响应,并在几秒钟后重新启动。 没有一个日志包含任何相关信息,我们100%确定服务器上没有可能导致此问题的cron。

有没有人遇到这种问题? 我们对这种有线行为感到非常沮丧,因为甚至没有一个线索是什么错

在服务器崩溃之前,我也拍了一个video ,就像你从中看到的一样,没有什么是错的。

2011年4月11日更新:

2周前 :为了缩小可能性,服务器在下一次发生前5分钟closures(shutdown -h now)。 神奇的是,服务器在预期的时间自行启动。 之后,我们的DC将服务器移动到另一个PDU端口,我们认为这将最终解决我们的问题。

今天 :服务器仍然崩溃,在同一时间! 我们的DC说同一PDU上的其他服务器没有这个问题。 现在我们真的很困惑,如果它不是PDU或服务器,它会是什么?

从video看来,这似乎是一个冷重启。 正如你所说,在日志里什么都没有。 我所能想到的只有sysrq“魔术”键或kvm卡,如果没有其他服务器使用相同的UPS正在经历相同的情况。

系统监视过程中出现错误/错误的情况可能会在特定的date/时间进行。 这应该很有趣追踪。

第一步是更改操作系统的date和时间,看它是否自行重新启动,以便缩小范围。

两个服务器电源线连接到相同的ups也有同样的情况。 在查看ups日志后,当每隔14天进行一次upstesting时,复位就发生了。

解决scheme:将一个电源线插入另一个ups或直接连接。

“完全相同的时间”是什么意思?

假设你已经消除了任何预定的工作(通过改变所有运行的时间 – 而不仅仅是查看日志),那么我的列表顶部将查看UPS日志。 你有一个UPS不是吗?

我已经看到有人在cron中这样做,只是为了驱动维护电话。 您肯定需要检查并确保系统中没有任何明确的计划会导致此类问题。

系统日志说什么?

我有一台IBM服务器,每76天就会崩溃。 试图弄清楚,让我绝望地生气了。 原来系统卡上的一个时钟问题( http://communities.vmware.com/thread/9359 )。 一定要检查是否有人遇到与制造商和型号服务器类似的问题,以防万一。

如果服务器有外部BMC,请检查BMC日志。 也许BMC定时器configuration为24小时,并且不被OS重置(仍然有很多BMC先尝试关机)

首先,尝试在崩溃当天closurescrond 。 (我怀疑上午11点的cron作业需要四分钟的时间才能触发内核错误或硬件故障。)

此外,请尝试将系统时钟延迟三分钟,以testing问题是由服务器内部还是服务器外部造成的。