低负载平均值,但高%用户和%系统CPU使用率

总结问题:

  • 为什么我们看到一组服务器与其他数据库和工作负载相比,性能明显变差? 除了较长的执行时间之外的其他症状是较低的(接近零)平均负载,较高的CPU使用率以及特别高的系统使用率。

长描述:我有几个服务器位于托pipe合作伙伴,运行MySQL 5.1.67和5.1.73,我们在高峰时间观察性能问题。

我们看到的是负载平均值从通常的水平下降到接近0(0.10-0.20),或许可以用New Relic的这个图像来描述

在这里输入图像说明

如果我在我们的testing和生产服务器上并行运行它,但是没有其他任何其他服务器,我可以重现捕获的工作负载(以及数据库转储)的问题。

我已经build立了一个与testing相同的my.cnf的Amazon实例(详细信息在文章末尾),并尝试了另一台可用的Linux服务器(LXC容器),甚至是我的台式电脑。 testing和生产上的执行时间是4分钟,其他时间大概在1分30秒左右,并且在负载平均值低但%user和%system高的情况下不显示此行为。

Vmstat在工作负载运行时显示高运行队列和大量的上下文切换,但只在有问题的机器上显示,sar显示没有iowait:

testing:

 $ ./workload.sh&vmstat 1 10 -w
 procs ------------------- memory ------------------ --- swap-- ----- io -----system-- ----- cpu -------
  rb swpd free buff cache si so bi bo in cs us sy id wa st
 1 0 168896 3218240 447004 12226164 0 0 9 75 19 12 3 1 97 0 0
 32 0 168896 3129304 447004 12226204 0 0 32 0 22669 357979 49 23 27 0 0
 29 0 168896 3129112 447004 12226212 0 0 0 40 23365 422537 49 26 25 0 0
 14 0 168896 3126188 447004 12226232 0 0 0 52 22386 456626 43 27 30 0 0
 29 0 168896 3130980 447012 12226204 0 0 0 68 23028 459332 45 27 29 0 0
 24 0 168896 3125212 447020 12239788 0 0 0 96 22968 367447 49 24 27 0 0
 27 0 168896 3104804 447020 12259820 0 0 0 68 22830 406129 50 28 22 0 0
 30 0 168896 3081740 447020 12280300 0 0 0 0 22493 423641 49 29 22 0 0

testing上:
 $顶部
顶部 -  19:49:22最多1天,1:15,5个用户,平均负载:0.08,0.10,0.09
任务:总共607,运行1次,606次睡眠,0次停止,0次僵尸
 Cpu:43.7%us,18.0%sy,0.0%ni,38.3%id,0.0%wa,0.0%hi,0.0%si,0.0%st

 sar上testing:
 08:11:04 PM CPU%user%nice%system%iowait%steal%idle
 08:11:05 PM全部51.08 0.00 24.37 0.00 0.00 24.54
 08:11:06 PM全部47.14 0.00 26.15 0.00 0.00 26.71

亚马逊:

 $ ./workload.sh&vmstat 1 10 -w
 10472
 procs ------------------- memory ------------------ --- swap-- ----- io -----system-- ----- cpu -------
  rb swpd free buff cache si so bi bo in cs us sy id wa st
  6 0 0 14133876 30316 90372 0 0 1 1 58 79 2 0 98 0 0
 14 0 0 14090268 30316 95972 0 0 0 0 16866 27910 88 10 3 0 0
 34 0 0 13910708 30324 90372 0 0 0 192 13934 25824 86 9 5 0 0
  1 0 0 14079724 30332 90372 0 0 0 228 10041 8075 31 2 67 0 0
  2 0 0 14102296 30332 90372 0 0 0 0 10129 7601 14 2 84 0 0
 28 0 0 14095320 30332 92020 0 0 0 0 19820 27951 76 8 16 0 0
 32 0 0 13940612 30340 91256 0 0 0 144 20896 26666 83 11 6 0 0
  1 0 0 14068780 30348 90372 0 0 0 204 13971 13457 53 4 42 0 0
 26 0 0 14068696 30356 92816 0 0 0 56 18661 24165 65 8 26 0 0
 16 0 0 13997072 30372 101740 0 0 0 288 14984 23034 63 9 26 2 0

亚马逊上榜:

 ] $顶部
顶部 -  13:51:09上午6:12,2个用户,平均负载:6.72,3.73,1.69
任务:256总计,6跑步,250睡觉,0停止,0僵尸
 Cpu:68.8%us,7.5%sy,0.0%ni,23.6%id,0.0%wa,0.0%hi,0.0%si,0.0%st

服务器:

  • 生产:MySQL从属(只读)运行5.1.67,RedHat 6.4。 2 x 6核Xeon®CPU E5-2630L 0 @ 2.00GHz,超线程,192GB RAM(128GB innodb_buffer)

  • testing:MySQL 5.1.73,RedHat 6.5(最近更新,看看是否能解决问题)。 2 x 6核Xeon®CPU E5-2630L 0 @ 2.00GHz,超线程,32GB RAM(4192M innodb_buffer)

另外我们有以下的地方,我没有看到这个问题,在1m30sec的时间内执行工作量,而上面的两个时间是4min。

  • Amazon:MySQL 5.1.73,c4x2large RedHat 6.5 – 使用testing服务器中的sysctl.conf和my.cnf进行configuration。

  • LXC:MySQL 5.1.73,CentOS6,my.cnf来自testing

  • 我的桌面:MariaDB 5.5,Ubuntu,i7 4核心。

我想我知道你在做什么。 这是一个可以达到更高的CPU利用率,同时具有较低的平均负载的情况。 尽pipe如此,诚实地CPU有50%应该至less暗示0.5的负载。 所以在你的控制之外的某个层面有什么不对劲。

这就是说,考虑以下几点:

1)虚拟服务器具有类似于Amazon EC2微型实例的突发/限制CPU分配scheme。

2)您的应用程序使用足够的CPU来消耗突发,然后被扼杀。

3)这种节stream阀既增加了所使用的CPU百分比,又同时降低了实际应用的吞吐量。

4)减less的应用程序吞吐量意味着更less的相关活动产生(subprocess,磁盘写入…),这意味着整体创build更less的负载。