configurationnagios通知设置非常频繁

我已经build立了一个有三个节点的Proxmox VE群集。 每个节点上都有一些虚拟机在运行。 我正在使用PVE监视器插件来设置主机和服务,这工作正常。

我的问题是,Nagios电子邮件发送行为有点奇怪。 理想情况下,我想每分钟检查一次,对于节点以及每个节点上运行的所有服务。

我的configuration文件如下所示:

# Define the cluster itself as a host # the command check_pve_cluster_nodes give us info # on the member's cluster state define host { host_name pve-cluster max_check_attempts 10 check_command check_pve_cluster_nodes contact_groups admins check_interval 1 contact_groups admins notifications_enabled 1 } # define openvz, qemu and storages as services of the cluster define service{ use generic-service host_name pve-cluster service_description OpenVZ VMs check_command check_pve_cluster_openvz check_interval 1 contact_groups admins notifications_enabled 1 } define service{ use generic-service host_name pve-cluster service_description Qemu VMs check_command check_pve_cluster_qemu check_interval 1 contact_groups admins notifications_enabled 1 } define service{ use generic-service host_name pve-cluster service_description Storages check_command check_pve_cluster_storage check_interval 1 contact_groups admins notifications_enabled 1 } 

我没有改变时间单位设置,所以这些应该是每分钟一次的检查。 Nagios Web UI显示主机处于脱机状态,但电子邮件通知仅在几分钟后发送。 此外,电子邮件内容缺less最重要的信息 – 哪个节点/服务正处于危急状态:

节点closures

 ***** Nagios ***** Notification Type: PROBLEM Host: pve-cluster State: DOWN Address: pve-cluster Info: NODES CRITICAL 2 / 3 working nodes Date/Time: Fri Mar 6 10:48:25 CET 2015 

虚拟机closures

 ***** Nagios ***** Notification Type: PROBLEM Service: Qemu VMs Host: pve-cluster Address: pve-cluster State: CRITICAL Date/Time: Fri Mar 6 10:40:44 CET 2015 Additional Info: QEMU CRITICAL 2 / 3 working VMs 

如何设置configuration,以便每隔一分钟检查一次主机和服务(即虚拟机)? 理想情况下,应在15分钟后重新检查该状态。

这甚至是最好的工作stream程? 还是有另一种更好的方式来安排通知确认他们?

一旦主机或服务进入“硬”状态,Nagios只发送电子邮件。 在一个基本的级别来回答你的问题 – 一旦主机或服务检查了max_check_attempts指定的次数,就会达到一个硬状态。 默认情况下,这是4。

有关软/硬状态的信息: http ://nagios.sourceforge.net/docs/3_0/statetypes.html有关max_check_attempts的信息: http ://nagios.sourceforge.net/docs/3_0/objectdefinitions.html

看起来这个插件显然是想给出返回的细节,但不pipe是什么原因,它不是。 不幸的是我没有环境来testing这个,所以我可能不得不让你挂在问题的这一部分。

perl的相关部分:

 print "NODES $rstatus{$statusScore} $workingNodes / " . scalar(@monitoredNodes) . " working nodes" . $br . $reportSummary; 
 print "STORAGE $rstatus{$statusScore} $workingStorages / " . scalar(@monitoredStorages) . " working storages" . $br . $reportSummary; 
 print "OPENVZ $rstatus{$statusScore} $workingVms / " . scalar(@monitoredOpenvz) . " working VMs" . $br . $reportSummary; 
 print "QEMU $rstatus{$statusScore} $workingVms / " . scalar(@monitoredQemus) . " working VMs" . $br . $reportSummary; 

$ reportSummary填充代码中较高的问题部分的详细信息,但似乎没有为您返回。