存储networking停止传输stream量

我有一个麻烦的问题。

我有一个服务于VMWare vSphere 5.1环境的10Gb存储networking

  • 存储:带有Chelseio T320 10Gb NIC的TrueNAS(NFS)
  • 存储: Dell PowerVault MD3600i(iSCSI)
  • networking: XSM7224S 10GB交换机
  • VMWare硬件:三个Supermicro服务器,每个服务器有两个hex处理器和192Gb RAM。
  • VMWare 10gb Nics: Chelsio T420-LL-CR

会发生什么事情:存储networking设备每个星期一次到一个月一次,停止传输stream量,并全部在一团火焰中熄灭。 发生这种情况时,设备中的任何设备都不能在存储networking上互相ping通。 就好像交换机closures所有端口或停止工作,但重新启动交换机什么也不做。 linux和vmware系统中的networking状态报告“Up”状态,但无论如何,重新启动networking接口都无能为力。 我必须重新启动所有涉及的服务器,包括TrueNAS,但不包括Dell Powervault,然后它将重新联机并且networking开始stream动。

我做了什么:这已经持续了一段时间,在那段时间,我已经replace了所有的Nics(320,升级到了420的),更换了开关(dell PC 8100),更换了电缆,并添加了戴尔PowerVault MD3600i。 TrueNAS作为主存储器,但现在属于PowerVault,而且TrueNAS作为系统备份的存储器。 没有日志给出任何暗示正在发生的事情。 交换机没有任何冲突或数据包传输错误可言。 但不pipe如何,这个问题依然存在。

我还有什么要做的:今天晚上,我将用备用的备件replaceTrueNAS上的chelsio T320网卡。 我还打算将我的Dell PowerConnect 8100 10Gb交换机重新接入,并将TrueNASnetworking隔离到该交换机上,这是因为TrueNAS目前是这个问题中唯一不变的常数。

我是否错过了一些东西?:我有这个想法,并希望把这个问题扔到社区,看看我是否过度了解这个问题,或者是否有一些想法来帮助确定问题。 我正在失去相当多的睡眠和头发。 我已经看到坏的尼克的networking,但几乎总是可以很容易地看到在交换机端口统计碰撞。

谢谢! 布拉德

我在1Gnetworking上遇到类似的问题,我们使用Broadcom芯片组来跟踪stream量控制缺陷 。 在高PPS期间,网卡会向交换机发送暂停帧。 在PC 62XX和其他基于Broadcom的交换机中,默认操作是将PAUSE从所有发送stream量的端口传播到最初接收PAUSE帧的端口。 这可能会传播到一个完全closures最坏的交换机,至less你会看到交通阻塞。

我们最终closures了所有Broadcom交换机的stream量控制,而且没有stream量控制,因为那时我们还没有看到任何networking或部分networking从高PPS中断。