不常见的input/输出错误 – Linux服务器

偶尔,我们在其中一个磁盘上遇到input/输出错误。

我们的服务器(DELL PowerEdge R720,Ubuntu 14.04)使用Perc H710 Raid控制器,而产生错误的磁盘是Dell 600GB SAS 6Gbps 15k 3.5“磁盘。

我们可以使用fsck.ext4来修正错误,但我们不知道是什么原因导致它们发生。

我们已经将服务器固件更新到最新版本,并运行了我们所能想到的所有testing。

我们还可以做什么来find问题的根源呢?

编辑:

我们在一个星期前联系了DELL,在他们指导我如何进行多项testing之后,他们得出结论:服务器很好,testing中没有出现任何exception。

我无法为设备启用SMART支持:

 $ sudo smartctl -a /dev/sda smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: DELL Product: PERC H710 Revision: 3.13 User Capacity: 1,199,101,181,952 bytes [1.19 TB] Logical block size: 512 bytes Logical Unit id: 0x6b8ca3a0f210dc0019eead8c1111fb0a Serial number: 000afb11118cadee1900dc10f2a0a38c Device type: disk Local Time is: Wed Jul 8 10:47:35 2015 IDT SMART support is: Unavailable - device lacks SMART capability. === START OF READ SMART DATA SECTION === Error Counter logging not supported Device does not support Self Test logging 

我试过了:

 $ sudo smartctl -s on /dev/sda smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF ENABLE/DISABLE COMMANDS SECTION === unable to fetch IEC (SMART) mode page [unsupported field in scsi command] A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options. 

此外,我不知道该怎么做(谷歌search没有帮助):

 $ sudo hdparm -I /dev/sda /dev/sda: SG_IO: bad/missing sense data, sb[]: 70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ATA device, with non-removable media Standards: Likely used: 1 Configuration: Logical max current cylinders 0 0 heads 0 0 sectors/track 0 0 -- Logical/Physical Sector size: 512 bytes device size with M = 1024*1024: 0 MBytes device size with M = 1000*1000: 0 MBytes cache/buffer size = unknown Capabilities: IORDY not likely Cannot perform double-word IO R/W multiple sector transfer: not supported DMA: not supported PIO: pio0 

任何build议是最受欢迎的!

你在RAID中有一个驱动器是不正常的,并且偶尔会产生错误? 听起来像是硬件问题,而且可能会变得更糟。 你应该考虑更换驱动器。 是的,这是昂贵的,但是你的时间值多less钱,如果整个驱动器在不合时宜的地方南下,会有多糟?

你能通过磁盘工具看到各个磁盘的SMART信息吗? 看看失败前检查,看看是否有什么突出。 这将表明一个失败的物理设备。

与其他磁盘在RAID组中产生错误的磁盘是? 如果不是,它可能是文件系统,而不是驱动器,或根据布局,可能是控制器(坏caching,固件不匹配)。 我也会检查磁盘和控制器上的固件版本,看看它们是否过时了。

在这个控制器上有其他types的磁盘吗? 他们有相同的固件等?

你收到什么具体的错误?

我build议尝试从PERC控制器获取更多信息。 对于Ubuntu,您可能无法安装Dell的OMSA进行监视和pipe理。

您可能会安装MegaCLI并使用它来导出控制器日志以获取有关正在发生的事件的更多信息。

您有没有联系戴尔支持的原因? 该服务器模型似乎是新的,我希望它仍然在保修期内…