我的硬盘即将死亡吗？

我在我的服务器上安装了两个硬盘作为RAID 1arrays（Linux，使用mdadm的软件RAID），其中一个硬盘在系统日志中提供了这个“present”：

Nov 23 02:05:29 h2 kernel: [7305215.338153] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:29 h2 kernel: [7305215.338178] ata1.00: irq_stat 0x40000008 Nov 23 02:05:29 h2 kernel: [7305215.338197] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:29 h2 kernel: [7305215.338220] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:29 h2 kernel: [7305215.338221] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:29 h2 kernel: [7305215.338287] ata1.00: status: { DRDY ERR } Nov 23 02:05:29 h2 kernel: [7305215.338305] ata1.00: error: { UNC } Nov 23 02:05:29 h2 kernel: [7305215.358901] ata1.00: configured for UDMA/133 Nov 23 02:05:32 h2 kernel: [7305218.269054] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:32 h2 kernel: [7305218.269081] ata1.00: irq_stat 0x40000008 Nov 23 02:05:32 h2 kernel: [7305218.269101] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:32 h2 kernel: [7305218.269125] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:32 h2 kernel: [7305218.269126] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:32 h2 kernel: [7305218.269196] ata1.00: status: { DRDY ERR } Nov 23 02:05:32 h2 kernel: [7305218.269215] ata1.00: error: { UNC } Nov 23 02:05:32 h2 kernel: [7305218.341565] ata1.00: configured for UDMA/133 Nov 23 02:05:35 h2 kernel: [7305221.193342] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:35 h2 kernel: [7305221.193368] ata1.00: irq_stat 0x40000008 Nov 23 02:05:35 h2 kernel: [7305221.193386] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:35 h2 kernel: [7305221.193408] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:35 h2 kernel: [7305221.193409] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:35 h2 kernel: [7305221.193474] ata1.00: status: { DRDY ERR } Nov 23 02:05:35 h2 kernel: [7305221.193491] ata1.00: error: { UNC } Nov 23 02:05:35 h2 kernel: [7305221.388404] ata1.00: configured for UDMA/133 Nov 23 02:05:38 h2 kernel: [7305224.426316] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:38 h2 kernel: [7305224.426343] ata1.00: irq_stat 0x40000008 Nov 23 02:05:38 h2 kernel: [7305224.426363] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:38 h2 kernel: [7305224.426387] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:38 h2 kernel: [7305224.426388] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:38 h2 kernel: [7305224.426459] ata1.00: status: { DRDY ERR } Nov 23 02:05:38 h2 kernel: [7305224.426478] ata1.00: error: { UNC } Nov 23 02:05:38 h2 kernel: [7305224.498133] ata1.00: configured for UDMA/133 Nov 23 02:05:41 h2 kernel: [7305227.400583] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:41 h2 kernel: [7305227.400608] ata1.00: irq_stat 0x40000008 Nov 23 02:05:41 h2 kernel: [7305227.400627] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:41 h2 kernel: [7305227.400649] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:41 h2 kernel: [7305227.400650] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:41 h2 kernel: [7305227.400716] ata1.00: status: { DRDY ERR } Nov 23 02:05:41 h2 kernel: [7305227.400734] ata1.00: error: { UNC } Nov 23 02:05:41 h2 kernel: [7305227.472432] ata1.00: configured for UDMA/133

从我读到目前为止，我不知道如果读错误意味着硬盘驱动器正在死亡（到目前为止没有写错误）。过去我遇到了硬盘错误，而且在日志中写入特定扇区时总是出错。这次不行。

我应该更换驱动器吗？ 其他事情可能会导致这个问题？

我已经安排了一个smartctl -t longtesting，将在几个小时内完成。我希望这会给我更多的信息。

更新：奇迹发生了。 详情如下：

我正在备份该机器上的一些文件，准备更换有故障的驱动器。然后，当我复制这些巨大的文件时，我收到了这个logcheck电子邮件：

 Security Events for kernel =-=-=-=-=-=-=-=-=-=-=-=-=- Nov 23 17:16:24 h2 kernel: [7359837.963597] end_request: I/O error, dev sdb, sector 1202093816 Nov 23 17:16:41 h2 kernel: [7359855.196334] end_request: I/O error, dev sdb, sector 1202093816 System Events =-=-=-=-=-=-= Nov 23 17:14:06 h2 kernel: [7359700.193114] ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 17:14:06 h2 kernel: [7359700.193139] ata2.00: irq_stat 0x40000008 Nov 23 17:14:06 h2 kernel: [7359700.193158] ata2.00: failed command: READ FPDMA QUEUED Nov 23 17:14:06 h2 kernel: [7359700.193180] ata2.00: cmd 60/08:00:58:03:aa/00:00:47:00:00/40 tag 0 ncq 4096 in Nov 23 17:14:06 h2 kernel: [7359700.193181] res 41/40:08:58:03:aa/00:00:47:00:00/00 Emask 0x409 (media error) <F> Nov 23 17:14:06 h2 kernel: [7359700.193247] ata2.00: status: { DRDY ERR } Nov 23 17:14:06 h2 kernel: [7359700.193265] ata2.00: error: { UNC } Nov 23 17:14:06 h2 kernel: [7359700.194458] ata2.00: configured for UDMA/133

哎呀！我的头发，如果我剃光头上有一些，站起来。看，这是真正的第二个驱动器上的坏道。怎么办？有两个错误的驱动器，我该怎么办？

我想了一下，决定我：

有一个驱动器，我怀疑是有缺陷的
而另一个我100％肯定会在日志中的不良行业投诉是错误的。

所以我换了第二个，而不是我最初提出的问题。我有几个分区，每个分区都build立在不同的RAID上，我希望能够重新同步至lessroot和boot，这样我就不必在服务器上重新安装所有的东西了。我可能不得不从备份恢复巨大的数据分区，但是，我会救我一些工作。

更换驱动器，启动resyncs。根和启动分区（大约50GB）重新启动真的很快。没有错误。我是一个快乐的露营者！

只是为了踢腿，让我们尝试重新分配巨大的数据分区 – 大约有2TB，500GB的数据。我开始重新同步，并观看了一段时间。这似乎花了很长时间，我把服务器联机，让用户使用他们的东西。重新同步发生在后台。而且，你知道些什么，大约18个小时后，重新同步结束了，没有任何错误。服务器现在完全活着。

我不知道现在是否应该更换原来的驱动器。我确信硬盘的服务器之神正在嘲笑我。

它不会死亡。它已经死了。

尽快更换，如果丢失任何数据，则从备份中恢复。

找不到任何可靠的来源来validation我自己的意见，但我真的认为这不是硬件损坏 。这是更多的一种数据检索问题。

如果将任何数据写入磁盘的位置与读取操作失败的位置完全相同，则应该可读。

因此，作为最后一点，您当前的数据可能无法在该驱动器上恢复 ，但由于您拥有RAIDarrays，您仍然可以从其他驱动器中取回数据并进行备份，然后格式化故障驱动器并重新同步RAIDarrays。

电磁场改变硬盘的内容可能会发生这个问题。