我的硬盘即将死亡吗?

我在我的服务器上安装了两个硬盘作为RAID 1arrays(Linux,使用mdadm的软件RAID),其中一个硬盘在系统日志中提供了这个“present”:

Nov 23 02:05:29 h2 kernel: [7305215.338153] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:29 h2 kernel: [7305215.338178] ata1.00: irq_stat 0x40000008 Nov 23 02:05:29 h2 kernel: [7305215.338197] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:29 h2 kernel: [7305215.338220] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:29 h2 kernel: [7305215.338221] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:29 h2 kernel: [7305215.338287] ata1.00: status: { DRDY ERR } Nov 23 02:05:29 h2 kernel: [7305215.338305] ata1.00: error: { UNC } Nov 23 02:05:29 h2 kernel: [7305215.358901] ata1.00: configured for UDMA/133 Nov 23 02:05:32 h2 kernel: [7305218.269054] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:32 h2 kernel: [7305218.269081] ata1.00: irq_stat 0x40000008 Nov 23 02:05:32 h2 kernel: [7305218.269101] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:32 h2 kernel: [7305218.269125] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:32 h2 kernel: [7305218.269126] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:32 h2 kernel: [7305218.269196] ata1.00: status: { DRDY ERR } Nov 23 02:05:32 h2 kernel: [7305218.269215] ata1.00: error: { UNC } Nov 23 02:05:32 h2 kernel: [7305218.341565] ata1.00: configured for UDMA/133 Nov 23 02:05:35 h2 kernel: [7305221.193342] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:35 h2 kernel: [7305221.193368] ata1.00: irq_stat 0x40000008 Nov 23 02:05:35 h2 kernel: [7305221.193386] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:35 h2 kernel: [7305221.193408] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:35 h2 kernel: [7305221.193409] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:35 h2 kernel: [7305221.193474] ata1.00: status: { DRDY ERR } Nov 23 02:05:35 h2 kernel: [7305221.193491] ata1.00: error: { UNC } Nov 23 02:05:35 h2 kernel: [7305221.388404] ata1.00: configured for UDMA/133 Nov 23 02:05:38 h2 kernel: [7305224.426316] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:38 h2 kernel: [7305224.426343] ata1.00: irq_stat 0x40000008 Nov 23 02:05:38 h2 kernel: [7305224.426363] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:38 h2 kernel: [7305224.426387] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:38 h2 kernel: [7305224.426388] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:38 h2 kernel: [7305224.426459] ata1.00: status: { DRDY ERR } Nov 23 02:05:38 h2 kernel: [7305224.426478] ata1.00: error: { UNC } Nov 23 02:05:38 h2 kernel: [7305224.498133] ata1.00: configured for UDMA/133 Nov 23 02:05:41 h2 kernel: [7305227.400583] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 02:05:41 h2 kernel: [7305227.400608] ata1.00: irq_stat 0x40000008 Nov 23 02:05:41 h2 kernel: [7305227.400627] ata1.00: failed command: READ FPDMA QUEUED Nov 23 02:05:41 h2 kernel: [7305227.400649] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in Nov 23 02:05:41 h2 kernel: [7305227.400650] res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F> Nov 23 02:05:41 h2 kernel: [7305227.400716] ata1.00: status: { DRDY ERR } Nov 23 02:05:41 h2 kernel: [7305227.400734] ata1.00: error: { UNC } Nov 23 02:05:41 h2 kernel: [7305227.472432] ata1.00: configured for UDMA/133 

从我读到目前为止,我不知道如果读错误意味着硬盘驱动器正在死亡(到目前为止没有写错误)。 过去我遇到了硬盘错误,而且在日志中写入特定扇区时总是出错。 这次不行。

我应该更换驱动器吗? 其他事情可能会导致这个问题?

我已经安排了一个smartctl -t longtesting,将在几个小时内完成。 我希望这会给我更多的信息。


更新:奇迹发生了。 详情如下:

我正在备份该机器上的一些文件,准备更换有故障的驱动器。 然后,当我复制这些巨大的文件时,我收到了这个logcheck电子邮件:

 Security Events for kernel =-=-=-=-=-=-=-=-=-=-=-=-=- Nov 23 17:16:24 h2 kernel: [7359837.963597] end_request: I/O error, dev sdb, sector 1202093816 Nov 23 17:16:41 h2 kernel: [7359855.196334] end_request: I/O error, dev sdb, sector 1202093816 System Events =-=-=-=-=-=-= Nov 23 17:14:06 h2 kernel: [7359700.193114] ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0 Nov 23 17:14:06 h2 kernel: [7359700.193139] ata2.00: irq_stat 0x40000008 Nov 23 17:14:06 h2 kernel: [7359700.193158] ata2.00: failed command: READ FPDMA QUEUED Nov 23 17:14:06 h2 kernel: [7359700.193180] ata2.00: cmd 60/08:00:58:03:aa/00:00:47:00:00/40 tag 0 ncq 4096 in Nov 23 17:14:06 h2 kernel: [7359700.193181] res 41/40:08:58:03:aa/00:00:47:00:00/00 Emask 0x409 (media error) <F> Nov 23 17:14:06 h2 kernel: [7359700.193247] ata2.00: status: { DRDY ERR } Nov 23 17:14:06 h2 kernel: [7359700.193265] ata2.00: error: { UNC } Nov 23 17:14:06 h2 kernel: [7359700.194458] ata2.00: configured for UDMA/133 

哎呀! 我的头发,如果我剃光头上有一些,站起来。 看,这是真正的第二个驱动器上的坏道。 怎么办? 有两个错误的驱动器,我该怎么办?

我想了一下,决定我:

  • 有一个驱动器,我怀疑是有缺陷的
  • 而另一个我100%肯定会在日志中的不良行业投诉是错误的。

所以我换了第二个,而不是我最初提出的问题。 我有几个分区,每个分区都build立在不同的RAID上,我希望能够重新同步至lessroot和boot,这样我就不必在服务器上重新安装所有的东西了。 我可能不得不从备份恢复巨大的数据分区,但是,我会救我一些工作。

更换驱动器,启动resyncs。 根和启动分区(大约50GB)重新启动真的很快。 没有错误。 我是一个快乐的露营者!

只是为了踢腿,让我们尝试重新分配巨大的数据分区 – 大约有2TB,500GB的数据。 我开始重新同步,并观看了一段时间。 这似乎花了很长时间,我把服务器联机,让用户使用他们的东西。 重新同步发生在后台。 而且,你知道些什么,大约18个小时后,重新同步结束了,没有任何错误。 服务器现在完全活着。

我不知道现在是否应该更换原来的驱动器。 我确信硬盘的服务器之神正在嘲笑我。

它不会死亡。它已经死了。

尽快更换,如果丢失任何数据,则从备份中恢复。

找不到任何可靠的来源来validation我自己的意见,但我真的认为这不是硬件损坏 。 这是更多的一种数据检索问题。

如果将任何数据写入磁盘的位置与读取操作失败的位置完全相同,则应该可读。

因此,作为最后一点,您当前的数据可能无法在该驱动器上恢复 ,但由于您拥有RAIDarrays,您仍然可以从其他驱动器中取回数据并进行备份,然后格式化故障驱动器并重新同步RAIDarrays。

电磁场改变硬盘的内容可能会发生这个问题。