我有一台运行VMware ESXi v4.1.0 348481的服务器。它有一个硬件RAID10和一个SATA备份驱动器。 我有一个运行的虚拟机,它具有RAID10数据存储上的主引导vmdk以及SATA备份驱动器的数据存储上的600 GB vmdk。 VM使用FreeBSD内核运行Debian linux,并使用ZFS作为备份驱动器。
编辑:该驱动器不直接连接到虚拟机。 它用作VMware数据存储,VM在SATA驱动器的数据存储上有一个vmdk。 数据存储空间不足(仅占65%)
我使用SSHlogin到服务器,发现昨天晚上备份被挂起, zfs list
或zpool list
都挂起。 所以我在ESXi中打开了虚拟控制台,很遗憾地看到:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0 (da1:mpt0:0:1:0): CAM status: SCSI Status Error (da1:mpt0:0:1:0): SCSI status: Check Condition (da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed) (da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0 (da1:mpt0:0:1:0): CAM status: SCSI Status Error (da1:mpt0:0:1:0): SCSI status: Check Condition (da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
我尝试重新启动虚拟机,并收到一条消息,指出系统正在重新启动,然后挂起。 (^ C出现,但不杀死shutdown
)。 我不能中断或kill -9
zpool list
zfs list
或者rsync
进程 – 当我尝试时没有任何反应。
更新:我刚刚重新启动虚拟机。 在联机后,备份zpool已联机,但是:
root@timestandstill:/home/jnet# zpool status -v pool: backup state: ONLINE status: One or more devices has experienced an error resulting in data corruption. Applications may be affected. action: Restore the file in question if possible. Otherwise restore the entire pool from backup. see: http://www.sun.com/msg/ZFS-8000-8A scrub: none requested config: NAME STATE READ WRITE CKSUM backup ONLINE 0 0 0 da1 ONLINE 0 0 0 errors: Permanent errors have been detected in the following files: /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
我倾向于更换驱动器…
这些错误确实表明其中一个SATA驱动器遇到足够的坏块而不能使用块重新分配空间。 那个驱动是坏的,需要被replace。 我不确定在vSphere客户端中显示哪些信息,但日志条目非常清晰。
如果你的硬件允许,热插拔应该是可行的。 否则,你将不得不closures一切,以执行更换。 如果该虚拟机在30分钟后还没有closures,那么就该硬性终止它。 这是有风险的,但是如果真的挂了,那就没有太多了。