服务器每两周在同一时间崩溃

几个月前，我们的服务器每隔14天开始崩溃，同时（每次大约11:04）。我们很确定这不是某种硬件故障，因为硬件故障往往是随机的。

服务器突然停止响应，并在几秒钟后重新启动。没有一个日志包含任何相关信息，我们100％确定服务器上没有可能导致此问题的cron。

有没有人遇到这种问题？我们对这种有线行为感到非常沮丧，因为甚至没有一个线索是什么错

在服务器崩溃之前，我也拍了一个video ，就像你从中看到的一样，没有什么是错的。

2011年4月11日更新：

2周前 ：为了缩小可能性，服务器在下一次发生前5分钟closures（shutdown -h now）。神奇的是，服务器在预期的时间自行启动。之后，我们的DC将服务器移动到另一个PDU端口，我们认为这将最终解决我们的问题。

今天：服务器仍然崩溃，在同一时间！我们的DC说同一PDU上的其他服务器没有这个问题。现在我们真的很困惑，如果它不是PDU或服务器，它会是什么？

从video看来，这似乎是一个冷重启。正如你所说，在日志里什么都没有。我所能想到的只有sysrq“魔术”键或kvm卡，如果没有其他服务器使用相同的UPS正在经历相同的情况。

系统监视过程中出现错误/错误的情况可能会在特定的date/时间进行。这应该很有趣追踪。

第一步是更改操作系统的date和时间，看它是否自行重新启动，以便缩小范围。

两个服务器电源线连接到相同的ups也有同样的情况。在查看ups日志后，当每隔14天进行一次upstesting时，复位就发生了。

解决scheme：将一个电源线插入另一个ups或直接连接。

“完全相同的时间”是什么意思？

假设你已经消除了任何预定的工作（通过改变所有运行的时间 – 而不仅仅是查看日志），那么我的列表顶部将查看UPS日志。你有一个UPS不是吗？

我已经看到有人在cron中这样做，只是为了驱动维护电话。您肯定需要检查并确保系统中没有任何明确的计划会导致此类问题。

系统日志说什么？

我有一台IBM服务器，每76天就会崩溃。试图弄清楚，让我绝望地生气了。原来系统卡上的一个时钟问题（ http://communities.vmware.com/thread/9359 ）。一定要检查是否有人遇到与制造商和型号服务器类似的问题，以防万一。

如果服务器有外部BMC，请检查BMC日志。也许BMC定时器configuration为24小时，并且不被OS重置（仍然有很多BMC先尝试关机）

首先，尝试在崩溃当天closurescrond 。（我怀疑上午11点的cron作业需要四分钟的时间才能触发内核错误或硬件故障。）

此外，请尝试将系统时钟延迟三分钟，以testing问题是由服务器内部还是服务器外部造成的。