[00:23:36] (03PS2) 10Ori.livneh: add `keyholder` module for managing a shared ssh-agent [puppet] - 10https://gerrit.wikimedia.org/r/165779 [00:51:13] PROBLEM - MySQL Replication Heartbeat on db1016 is CRITICAL: CRIT replication delay 307 seconds [00:51:23] PROBLEM - MySQL Slave Delay on db1016 is CRITICAL: CRIT replication delay 325 seconds [00:52:14] RECOVERY - MySQL Replication Heartbeat on db1016 is OK: OK replication delay -0 seconds [00:52:23] RECOVERY - MySQL Slave Delay on db1016 is OK: OK replication delay 0 seconds [00:55:02] (03PS1) 10Dzahn: add a delay between updates for wikisite/editthis [debs/wikistats] - 10https://gerrit.wikimedia.org/r/166162 (https://bugzilla.wikimedia.org/59742) [00:56:53] (03CR) 10jenkins-bot: [V: 04-1] add a delay between updates for wikisite/editthis [debs/wikistats] - 10https://gerrit.wikimedia.org/r/166162 (https://bugzilla.wikimedia.org/59742) (owner: 10Dzahn) [01:02:39] (03PS2) 10Dzahn: add a delay between updates for wikisite/editthis [debs/wikistats] - 10https://gerrit.wikimedia.org/r/166162 (https://bugzilla.wikimedia.org/59742) [01:05:51] (03PS3) 10Dzahn: add a delay between updates for wikisite/editthis [debs/wikistats] - 10https://gerrit.wikimedia.org/r/166162 (https://bugzilla.wikimedia.org/59742) [01:06:16] (03CR) 10Dzahn: [C: 032] add a delay between updates for wikisite/editthis [debs/wikistats] - 10https://gerrit.wikimedia.org/r/166162 (https://bugzilla.wikimedia.org/59742) (owner: 10Dzahn) [01:06:22] (03CR) 10Dzahn: [V: 032] add a delay between updates for wikisite/editthis [debs/wikistats] - 10https://gerrit.wikimedia.org/r/166162 (https://bugzilla.wikimedia.org/59742) (owner: 10Dzahn) [01:11:49] (03PS4) 10Ori.livneh: puppetmaster Apache template - retab [puppet] - 10https://gerrit.wikimedia.org/r/153987 (owner: 10Dzahn) [01:11:52] (03CR) 10Ori.livneh: [C: 031] puppetmaster Apache template - retab [puppet] - 10https://gerrit.wikimedia.org/r/153987 (owner: 10Dzahn) [01:17:10] (03PS1) 10Dzahn: add update cronjobs for wikisite/editthis [puppet] - 10https://gerrit.wikimedia.org/r/166164 (https://bugzilla.wikimedia.org/59742) [01:18:35] (03CR) 10Dzahn: [C: 032] "labs-only and now has a delay" [puppet] - 10https://gerrit.wikimedia.org/r/166164 (https://bugzilla.wikimedia.org/59742) (owner: 10Dzahn) [01:19:43] PROBLEM - Router interfaces on cr1-eqiad is CRITICAL: CRITICAL: host 208.80.154.196, interfaces up: 220, down: 1, dormant: 0, excluded: 0, unused: 0BRxe-4/2/0: down - Core: cr1-codfw:xe-5/2/1 (Telia, IC-307235) (#2648) [10Gbps wave]BR [01:26:53] RECOVERY - Router interfaces on cr1-eqiad is OK: OK: host 208.80.154.196, interfaces up: 222, down: 0, dormant: 0, excluded: 0, unused: 0 [01:47:44] PROBLEM - puppet last run on cp4008 is CRITICAL: CRITICAL: puppet fail [02:06:04] RECOVERY - puppet last run on cp4008 is OK: OK: Puppet is currently enabled, last run 8 seconds ago with 0 failures [02:17:18] !log LocalisationUpdate completed (1.25wmf2) at 2014-10-11 02:17:18+00:00 [02:17:28] Logged the message, Master [02:29:32] !log LocalisationUpdate completed (1.25wmf3) at 2014-10-11 02:29:32+00:00 [02:29:38] Logged the message, Master [03:12:43] PROBLEM - Router interfaces on cr1-eqiad is CRITICAL: CRITICAL: host 208.80.154.196, interfaces up: 220, down: 1, dormant: 0, excluded: 0, unused: 0BRxe-4/2/0: down - Core: cr1-codfw:xe-5/2/1 (Telia, IC-307235) (#2648) [10Gbps wave]BR [03:14:43] RECOVERY - Router interfaces on cr1-eqiad is OK: OK: host 208.80.154.196, interfaces up: 222, down: 0, dormant: 0, excluded: 0, unused: 0 [03:31:55] PROBLEM - puppet last run on ms-be2005 is CRITICAL: CRITICAL: Puppet has 1 failures [03:32:44] PROBLEM - puppet last run on ms-be2001 is CRITICAL: CRITICAL: Puppet has 1 failures [03:32:53] PROBLEM - puppet last run on ms-be2008 is CRITICAL: CRITICAL: Puppet has 1 failures [03:35:01] !log LocalisationUpdate ResourceLoader cache refresh completed at Sat Oct 11 03:35:00 UTC 2014 (duration 34m 59s) [03:35:09] Logged the message, Master [03:50:01] RECOVERY - puppet last run on ms-be2001 is OK: OK: Puppet is currently enabled, last run 1 seconds ago with 0 failures [03:50:13] RECOVERY - puppet last run on ms-be2008 is OK: OK: Puppet is currently enabled, last run 22 seconds ago with 0 failures [03:51:13] RECOVERY - puppet last run on ms-be2005 is OK: OK: Puppet is currently enabled, last run 59 seconds ago with 0 failures [04:24:34] PROBLEM - Swift HTTP backend on ms-fe2003 is CRITICAL: Connection timed out [04:24:43] PROBLEM - Host pollux is DOWN: CRITICAL - Time to live exceeded (208.80.153.43) [04:24:43] PROBLEM - Host achernar is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [04:24:54] PROBLEM - Swift HTTP backend on ms-fe2004 is CRITICAL: Connection timed out [04:25:43] PROBLEM - Host bast2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.5) [04:25:44] PROBLEM - Host baham is DOWN: CRITICAL - Time to live exceeded (208.80.153.13) [04:25:44] PROBLEM - Host labcontrol2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.14) [04:25:44] PROBLEM - Host install2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.4) [04:26:11] RECOVERY - Host bast2001 is UP: PING OK - Packet loss = 0%, RTA = 35.87 ms [04:26:11] RECOVERY - Host pollux is UP: PING OK - Packet loss = 0%, RTA = 34.58 ms [04:26:11] RECOVERY - Host labcontrol2001 is UP: PING OK - Packet loss = 0%, RTA = 36.32 ms [04:26:11] RECOVERY - Host baham is UP: PING OK - Packet loss = 0%, RTA = 34.79 ms [04:26:11] RECOVERY - Host install2001 is UP: PING OK - Packet loss = 0%, RTA = 40.39 ms [04:26:56] PROBLEM - Host cr1-codfw is DOWN: CRITICAL - Time to live exceeded (208.80.153.192) [04:28:14] PROBLEM - Host cr2-codfw is DOWN: CRITICAL - Time to live exceeded (208.80.153.193) [04:28:14] PROBLEM - Host 2620:0:860:1:d6ae:52ff:feac:4dc8 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:1:d6ae:52ff:feac:4dc8 [04:28:26] PROBLEM - Host pollux is DOWN: CRITICAL - Time to live exceeded (208.80.153.43) [04:28:26] PROBLEM - Host labcontrol2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.14) [04:28:26] PROBLEM - Host baham is DOWN: CRITICAL - Time to live exceeded (208.80.153.13) [04:28:26] PROBLEM - Host labs-ns1.wikimedia.org is DOWN: CRITICAL - Time to live exceeded (208.80.153.15) [04:28:26] PROBLEM - Host install2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.4) [04:28:26] PROBLEM - Host 2620:0:860:2:d6ae:52ff:fead:5610 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:2:d6ae:52ff:fead:5610 [04:28:26] PROBLEM - Host bast2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.5) [04:28:27] PROBLEM - Host acamar is DOWN: CRITICAL - Time to live exceeded (208.80.153.12) [04:28:33] PROBLEM - LVS HTTP IPv4 on ms-fe.svc.codfw.wmnet is CRITICAL: Connection timed out [04:28:41] PROBLEM - Host ns1-v6 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:ed1a::e [04:28:41] PROBLEM - Host ms-fe2003 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:41] PROBLEM - Host ms-fe2004 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:41] PROBLEM - Host db2003 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:41] PROBLEM - Host db2034 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:41] PROBLEM - Host db2005 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:41] PROBLEM - Recursive DNS on 208.80.153.42 is CRITICAL: CRITICAL - Plugin timed out while executing system call [04:28:43] PROBLEM - Host ms-be2011 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:43] PROBLEM - Host lvs2003 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:43] PROBLEM - Host ms-be2007 is DOWN: PING CRITICAL - Packet loss = 100% [04:28:43] PROBLEM - Host db2017 is DOWN: PING CRITICAL - Packet loss = 100% [04:32:13] PROBLEM - Host 208.80.153.42 is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [04:32:23] PROBLEM - Host 208.80.153.12 is DOWN: CRITICAL - Time to live exceeded (208.80.153.12) [04:32:58] PROBLEM - Host ms-fe.svc.codfw.wmnet is DOWN: PING CRITICAL - Packet loss = 100% [04:39:35] well, that's awesome [04:41:23] I was going to re-route ns1, since that's the only remotely-interesting thing depending on codfw [04:41:44] but it seems last time paravoid dealt with this, he left it in as a low-pref backup route, so it's already working [04:48:54] RECOVERY - Host labs-ns1.wikimedia.org is UP: PING OK - Packet loss = 0%, RTA = 34.45 ms [04:48:54] RECOVERY - Host acamar is UP: PING OK - Packet loss = 0%, RTA = 34.35 ms [04:48:54] RECOVERY - Host baham is UP: PING OK - Packet loss = 0%, RTA = 36.40 ms [04:48:54] RECOVERY - Host ms-be2006 is UP: PING OK - Packet loss = 0%, RTA = 34.47 ms [04:48:54] RECOVERY - Host ms-be2008 is UP: PING OK - Packet loss = 0%, RTA = 34.29 ms [04:48:54] RECOVERY - Host db2030 is UP: PING OK - Packet loss = 0%, RTA = 35.92 ms [04:48:55] RECOVERY - Host db2028 is UP: PING OK - Packet loss = 0%, RTA = 36.31 ms [04:51:19] PROBLEM - puppet last run on lvs2005 is CRITICAL: CRITICAL: puppet fail [04:51:29] RECOVERY - Host cr1-codfw is UP: PING OK - Packet loss = 0%, RTA = 36.25 ms [04:51:29] PROBLEM - puppet last run on pollux is CRITICAL: CRITICAL: puppet fail [04:51:29] PROBLEM - puppet last run on labcontrol2001 is CRITICAL: CRITICAL: Puppet has 69 failures [04:51:29] PROBLEM - puppet last run on db2034 is CRITICAL: CRITICAL: puppet fail [04:51:30] PROBLEM - puppet last run on db2035 is CRITICAL: CRITICAL: puppet fail [04:51:30] PROBLEM - puppet last run on ms-fe2002 is CRITICAL: CRITICAL: puppet fail [04:51:30] PROBLEM - puppet last run on db2002 is CRITICAL: CRITICAL: Puppet has 3 failures [04:51:30] PROBLEM - puppet last run on db2010 is CRITICAL: CRITICAL: puppet fail [04:51:39] PROBLEM - puppet last run on ms-be2006 is CRITICAL: CRITICAL: puppet fail [04:51:40] PROBLEM - puppet last run on db2011 is CRITICAL: CRITICAL: puppet fail [04:51:40] PROBLEM - puppet last run on db2028 is CRITICAL: CRITICAL: puppet fail [04:51:40] PROBLEM - puppet last run on ms-fe2003 is CRITICAL: CRITICAL: puppet fail [04:51:40] PROBLEM - puppet last run on db2030 is CRITICAL: CRITICAL: puppet fail [04:51:40] PROBLEM - puppet last run on db2033 is CRITICAL: CRITICAL: puppet fail [04:51:40] PROBLEM - puppet last run on ms-be2010 is CRITICAL: CRITICAL: puppet fail [04:51:59] PROBLEM - puppet last run on baham is CRITICAL: CRITICAL: puppet fail [04:51:59] PROBLEM - puppet last run on lvs2002 is CRITICAL: CRITICAL: puppet fail [04:51:59] PROBLEM - puppet last run on ms-fe2004 is CRITICAL: CRITICAL: puppet fail [04:52:00] PROBLEM - puppet last run on ms-fe2001 is CRITICAL: CRITICAL: puppet fail [04:52:00] PROBLEM - puppet last run on lvs2001 is CRITICAL: CRITICAL: Puppet has 11 failures [04:52:17] PROBLEM - puppet last run on bast2001 is CRITICAL: CRITICAL: puppet fail [04:52:17] PROBLEM - puppet last run on install2001 is CRITICAL: CRITICAL: puppet fail [04:52:17] PROBLEM - puppet last run on db2012 is CRITICAL: CRITICAL: puppet fail [04:52:17] PROBLEM - puppet last run on ms-be2011 is CRITICAL: CRITICAL: puppet fail [04:52:28] PROBLEM - puppet last run on ms-be2009 is CRITICAL: CRITICAL: puppet fail [04:52:28] PROBLEM - puppet last run on db2017 is CRITICAL: CRITICAL: puppet fail [04:52:28] PROBLEM - puppet last run on ms-be2004 is CRITICAL: CRITICAL: puppet fail [04:52:28] PROBLEM - puppet last run on ms-be2003 is CRITICAL: CRITICAL: puppet fail [04:52:28] PROBLEM - puppet last run on ms-be2002 is CRITICAL: CRITICAL: puppet fail [04:52:37] PROBLEM - puppet last run on achernar is CRITICAL: CRITICAL: puppet fail [04:52:37] PROBLEM - puppet last run on db2039 is CRITICAL: CRITICAL: puppet fail [04:52:37] PROBLEM - puppet last run on lvs2004 is CRITICAL: CRITICAL: Puppet has 11 failures [04:52:38] PROBLEM - puppet last run on db2036 is CRITICAL: CRITICAL: Puppet has 25 failures [04:52:50] RECOVERY - puppet last run on db2011 is OK: OK: Puppet is currently enabled, last run 31 seconds ago with 0 failures [04:53:57] RECOVERY - puppet last run on ms-fe2002 is OK: OK: Puppet is currently enabled, last run 58 seconds ago with 0 failures [04:53:58] RECOVERY - puppet last run on db2028 is OK: OK: Puppet is currently enabled, last run 5 seconds ago with 0 failures [04:53:58] RECOVERY - puppet last run on db2030 is OK: OK: Puppet is currently enabled, last run 5 seconds ago with 0 failures [04:54:18] RECOVERY - puppet last run on db2012 is OK: OK: Puppet is currently enabled, last run 27 seconds ago with 0 failures [04:55:18] RECOVERY - puppet last run on baham is OK: OK: Puppet is currently enabled, last run 36 seconds ago with 0 failures [04:55:38] RECOVERY - puppet last run on achernar is OK: OK: Puppet is currently enabled, last run 49 seconds ago with 0 failures [04:56:38] RECOVERY - puppet last run on db2017 is OK: OK: Puppet is currently enabled, last run 3 seconds ago with 0 failures [04:56:57] RECOVERY - puppet last run on db2010 is OK: OK: Puppet is currently enabled, last run 39 seconds ago with 0 failures [04:57:28] RECOVERY - puppet last run on lvs2002 is OK: OK: Puppet is currently enabled, last run 54 seconds ago with 0 failures [04:57:37] RECOVERY - puppet last run on bast2001 is OK: OK: Puppet is currently enabled, last run 51 seconds ago with 0 failures [04:57:48] RECOVERY - puppet last run on lvs2005 is OK: OK: Puppet is currently enabled, last run 27 seconds ago with 0 failures [04:57:48] RECOVERY - puppet last run on pollux is OK: OK: Puppet is currently enabled, last run 25 seconds ago with 0 failures [04:58:47] RECOVERY - puppet last run on ms-be2009 is OK: OK: Puppet is currently enabled, last run 43 seconds ago with 0 failures [04:59:08] RECOVERY - puppet last run on ms-be2010 is OK: OK: Puppet is currently enabled, last run 24 seconds ago with 0 failures [04:59:58] RECOVERY - puppet last run on db2035 is OK: OK: Puppet is currently enabled, last run 9 seconds ago with 0 failures [05:00:09] RECOVERY - puppet last run on db2033 is OK: OK: Puppet is currently enabled, last run 53 seconds ago with 0 failures [05:02:48] RECOVERY - puppet last run on ms-be2002 is OK: OK: Puppet is currently enabled, last run 48 seconds ago with 0 failures [05:03:37] RECOVERY - puppet last run on ms-fe2004 is OK: OK: Puppet is currently enabled, last run 27 seconds ago with 0 failures [05:03:47] RECOVERY - puppet last run on ms-be2003 is OK: OK: Puppet is currently enabled, last run 27 seconds ago with 0 failures [05:03:58] RECOVERY - puppet last run on db2039 is OK: OK: Puppet is currently enabled, last run 53 seconds ago with 0 failures [05:04:07] RECOVERY - puppet last run on db2034 is OK: OK: Puppet is currently enabled, last run 25 seconds ago with 0 failures [05:04:08] RECOVERY - puppet last run on ms-be2006 is OK: OK: Puppet is currently enabled, last run 6 seconds ago with 0 failures [05:04:49] RECOVERY - puppet last run on ms-be2004 is OK: OK: Puppet is currently enabled, last run 13 seconds ago with 0 failures [05:05:17] RECOVERY - puppet last run on db2002 is OK: OK: Puppet is currently enabled, last run 54 seconds ago with 0 failures [05:05:38] RECOVERY - puppet last run on ms-fe2001 is OK: OK: Puppet is currently enabled, last run 14 seconds ago with 0 failures [05:05:58] RECOVERY - puppet last run on lvs2004 is OK: OK: Puppet is currently enabled, last run 56 seconds ago with 0 failures [05:07:07] RECOVERY - puppet last run on db2036 is OK: OK: Puppet is currently enabled, last run 28 seconds ago with 0 failures [05:07:07] RECOVERY - puppet last run on labcontrol2001 is OK: OK: Puppet is currently enabled, last run 6 seconds ago with 0 failures [05:07:17] RECOVERY - puppet last run on ms-fe2003 is OK: OK: Puppet is currently enabled, last run 34 seconds ago with 0 failures [05:07:38] RECOVERY - puppet last run on lvs2001 is OK: OK: Puppet is currently enabled, last run 47 seconds ago with 0 failures [05:07:38] RECOVERY - puppet last run on install2001 is OK: OK: Puppet is currently enabled, last run 15 seconds ago with 0 failures [05:08:47] RECOVERY - puppet last run on ms-be2011 is OK: OK: Puppet is currently enabled, last run 60 seconds ago with 0 failures [05:11:07] PROBLEM - Swift HTTP backend on ms-fe2002 is CRITICAL: Connection timed out [05:11:07] PROBLEM - Swift HTTP backend on ms-fe2001 is CRITICAL: Connection timed out [05:11:07] PROBLEM - Swift HTTP backend on ms-fe2003 is CRITICAL: Connection timed out [05:11:07] PROBLEM - LVS HTTP IPv4 on ms-fe.svc.codfw.wmnet is CRITICAL: Connection timed out [05:12:58] PROBLEM - puppet last run on ms-be2007 is CRITICAL: CRITICAL: Puppet has 2 failures [05:14:07] PROBLEM - puppet last run on acamar is CRITICAL: CRITICAL: Puppet has 4 failures [05:14:30] (03PS5) 10KartikMistry: WIP: apertium service configuration for Beta [puppet] - 10https://gerrit.wikimedia.org/r/165485 [05:16:18] PROBLEM - LVS HTTP IPv4 on ms-fe.svc.codfw.wmnet is CRITICAL: Connection timed out [05:16:29] PROBLEM - Host baham is DOWN: CRITICAL - Time to live exceeded (208.80.153.13) [05:16:29] PROBLEM - Host pollux is DOWN: CRITICAL - Time to live exceeded (208.80.153.43) [05:16:29] PROBLEM - Host install2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.4) [05:16:29] PROBLEM - Host bast2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.5) [05:16:29] PROBLEM - Host achernar is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:16:40] PROBLEM - Host 2620:0:860:2:d6ae:52ff:fead:5610 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:2:d6ae:52ff:fead:5610 [05:16:41] PROBLEM - Host 208.80.153.42 is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:17:12] PROBLEM - Host cr2-codfw is DOWN: PING CRITICAL - Packet loss = 100% [05:17:12] PROBLEM - Host ms-be2008 is DOWN: PING CRITICAL - Packet loss = 100% [05:17:12] PROBLEM - Host db2038 is DOWN: PING CRITICAL - Packet loss = 100% [05:17:13] PROBLEM - Host ms-be2003 is DOWN: PING CRITICAL - Packet loss = 100% [05:17:13] PROBLEM - Host ms-be2011 is DOWN: PING CRITICAL - Packet loss = 100% [05:17:13] PROBLEM - Host acamar is DOWN: PING CRITICAL - Packet loss = 100% [05:17:13] PROBLEM - Host ms-be2006 is DOWN: PING CRITICAL - Packet loss = 100% [05:18:39] RECOVERY - Host ns1-v6 is UP: PING OK - Packet loss = 0%, RTA = 52.62 ms [05:18:39] RECOVERY - Host 208.80.153.42 is UP: PING OK - Packet loss = 0%, RTA = 52.04 ms [05:20:29] PROBLEM - puppet last run on bast2001 is CRITICAL: CRITICAL: puppet fail [05:21:09] PROBLEM - puppet last run on ms-be2010 is CRITICAL: CRITICAL: Puppet has 1 failures [05:21:28] PROBLEM - puppet last run on lvs2002 is CRITICAL: CRITICAL: puppet fail [05:22:53] PROBLEM - Swift HTTP backend on ms-fe2002 is CRITICAL: Connection timed out [05:22:54] PROBLEM - Swift HTTP backend on ms-fe2001 is CRITICAL: Connection timed out [05:22:54] PROBLEM - Swift HTTP backend on ms-fe2003 is CRITICAL: Connection timed out [05:22:54] PROBLEM - LVS HTTP IPv4 on ms-fe.svc.codfw.wmnet is CRITICAL: Connection timed out [05:22:57] PROBLEM - puppet last run on ms-be2009 is CRITICAL: Timeout while attempting connection [05:23:49] PROBLEM - Host 208.80.153.12 is DOWN: CRITICAL - Time to live exceeded (208.80.153.12) [05:23:49] PROBLEM - Host cr1-codfw is DOWN: CRITICAL - Time to live exceeded (208.80.153.192) [05:23:49] PROBLEM - Host ns1-v6 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:ed1a::e [05:23:58] PROBLEM - Host bast2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.5) [05:23:58] PROBLEM - Host achernar is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:23:58] PROBLEM - Host acamar is DOWN: CRITICAL - Time to live exceeded (208.80.153.12) [05:23:58] PROBLEM - Host 2620:0:860:2:d6ae:52ff:fead:5610 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:2:d6ae:52ff:fead:5610 [05:23:58] PROBLEM - Host cr2-codfw is DOWN: CRITICAL - Time to live exceeded (208.80.153.193) [05:23:58] PROBLEM - Host labcontrol2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.14) [05:23:58] PROBLEM - Host labs-ns1.wikimedia.org is DOWN: CRITICAL - Time to live exceeded (208.80.153.15) [05:23:59] PROBLEM - Host install2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.4) [05:23:59] PROBLEM - Host pollux is DOWN: CRITICAL - Time to live exceeded (208.80.153.43) [05:24:00] PROBLEM - Host baham is DOWN: CRITICAL - Time to live exceeded (208.80.153.13) [05:24:08] PROBLEM - Host db2005 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:09] PROBLEM - Host db2019 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:09] PROBLEM - Host db2029 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:09] PROBLEM - Host db2039 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:09] PROBLEM - Host lvs2003 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:18] PROBLEM - Host 208.80.153.42 is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:24:18] PROBLEM - Host db2017 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:18] PROBLEM - Host db2012 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:18] PROBLEM - Host ms-be2007 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:18] PROBLEM - Host ms-be2009 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:19] PROBLEM - Host ms-be2006 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:19] PROBLEM - Host ms-be2008 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:20] PROBLEM - Host ms-be2004 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:20] PROBLEM - Host lvs2005 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:21] PROBLEM - Host db2037 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:21] PROBLEM - Host db2011 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:22] PROBLEM - Host db2028 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:22] PROBLEM - Host ms-be2003 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:23] PROBLEM - Host db2033 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:23] PROBLEM - Host ms-be2001 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:24] PROBLEM - Host ms-fe2002 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:24] PROBLEM - Host ms-fe2004 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:25] PROBLEM - Host ms-be2005 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:25] PROBLEM - Host ms-be2012 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:26] PROBLEM - Host db2030 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:26] PROBLEM - Host ms-be2002 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:27] PROBLEM - Host db2038 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:27] PROBLEM - Host ms-be2010 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:28] PROBLEM - Host ms-be2011 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:28] PROBLEM - Host db2002 is DOWN: PING CRITICAL - Packet loss = 100% [05:24:39] PROBLEM - Host 2620:0:860:1:d6ae:52ff:feac:4dc8 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:1:d6ae:52ff:feac:4dc8 [05:24:49] PROBLEM - Host ms-fe2001 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:49] PROBLEM - Host db2034 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:49] PROBLEM - Host lvs2001 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:49] PROBLEM - Host db2007 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:49] PROBLEM - Host lvs2006 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:49] PROBLEM - Host db2001 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:49] PROBLEM - Host db2035 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:50] PROBLEM - Host db2023 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:50] PROBLEM - Host db2016 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:51] PROBLEM - Host lvs2002 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:51] PROBLEM - Host ms-fe2003 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:52] PROBLEM - Host db2003 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:52] PROBLEM - Host db2004 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:53] PROBLEM - Host db2009 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:53] PROBLEM - Host ms-fe.svc.codfw.wmnet is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:55] PROBLEM - Host lvs2004 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:55] PROBLEM - Host db2018 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:55] PROBLEM - Host db2010 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:24:55] PROBLEM - Host db2036 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:28:28] RECOVERY - Host ms-fe2004 is UP: PING OK - Packet loss = 0%, RTA = 53.39 ms [05:28:28] RECOVERY - Host lvs2002 is UP: PING OK - Packet loss = 0%, RTA = 52.41 ms [05:28:28] RECOVERY - Host ms-be2006 is UP: PING OK - Packet loss = 0%, RTA = 53.80 ms [05:28:28] RECOVERY - Host lvs2001 is UP: PING OK - Packet loss = 0%, RTA = 52.19 ms [05:28:28] RECOVERY - Host db2001 is UP: PING OK - Packet loss = 0%, RTA = 52.73 ms [05:29:59] RECOVERY - Host ms-fe.svc.codfw.wmnet is UP: PING OK - Packet loss = 0%, RTA = 51.74 ms [05:30:49] PROBLEM - puppet last run on install2001 is CRITICAL: CRITICAL: puppet fail [05:30:49] PROBLEM - puppet last run on ms-fe2004 is CRITICAL: CRITICAL: puppet fail [05:30:58] PROBLEM - puppet last run on ms-be2011 is CRITICAL: CRITICAL: puppet fail [05:31:09] PROBLEM - puppet last run on ms-be2004 is CRITICAL: CRITICAL: puppet fail [05:31:09] PROBLEM - puppet last run on ms-be2003 is CRITICAL: CRITICAL: Puppet has 24 failures [05:31:09] PROBLEM - puppet last run on ms-be2002 is CRITICAL: CRITICAL: Puppet has 5 failures [05:31:18] RECOVERY - puppet last run on acamar is OK: OK: Puppet is currently enabled, last run 12 seconds ago with 0 failures [05:31:18] PROBLEM - puppet last run on labcontrol2001 is CRITICAL: CRITICAL: puppet fail [05:31:18] PROBLEM - puppet last run on pollux is CRITICAL: CRITICAL: puppet fail [05:31:19] PROBLEM - puppet last run on db2039 is CRITICAL: CRITICAL: puppet fail [05:31:19] PROBLEM - puppet last run on db2036 is CRITICAL: CRITICAL: puppet fail [05:31:19] PROBLEM - puppet last run on db2034 is CRITICAL: CRITICAL: puppet fail [05:31:28] PROBLEM - puppet last run on ms-fe2003 is CRITICAL: CRITICAL: puppet fail [05:31:28] PROBLEM - puppet last run on ms-be2006 is CRITICAL: CRITICAL: puppet fail [05:31:28] PROBLEM - puppet last run on db2005 is CRITICAL: CRITICAL: puppet fail [05:31:53] PROBLEM - puppet last run on ms-fe2001 is CRITICAL: CRITICAL: puppet fail [05:32:09] RECOVERY - puppet last run on ms-be2007 is OK: OK: Puppet is currently enabled, last run 41 seconds ago with 0 failures [05:36:58] PROBLEM - Swift HTTP backend on ms-fe2004 is CRITICAL: Connection timed out [05:37:19] PROBLEM - Host baham is DOWN: CRITICAL - Time to live exceeded (208.80.153.13) [05:37:20] PROBLEM - Host bast2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.5) [05:37:20] PROBLEM - Host achernar is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:37:20] PROBLEM - Host install2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.4) [05:37:28] PROBLEM - Host labcontrol2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.14) [05:37:39] RECOVERY - Host install2001 is UP: PING OK - Packet loss = 0%, RTA = 54.06 ms [05:37:42] RECOVERY - Host achernar is UP: PING OK - Packet loss = 0%, RTA = 52.03 ms [05:37:42] RECOVERY - Host labcontrol2001 is UP: PING OK - Packet loss = 0%, RTA = 51.79 ms [05:37:42] RECOVERY - Host baham is UP: PING OK - Packet loss = 0%, RTA = 51.75 ms [05:38:08] RECOVERY - puppet last run on lvs2002 is OK: OK: Puppet is currently enabled, last run 92 seconds ago with 0 failures [05:38:09] RECOVERY - Host bast2001 is UP: PING OK - Packet loss = 0%, RTA = 52.55 ms [05:38:58] PROBLEM - Host 2620:0:860:1:d6ae:52ff:feac:4dc8 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:1:d6ae:52ff:feac:4dc8 [05:39:51] RECOVERY - Host 2620:0:860:1:d6ae:52ff:feac:4dc8 is UP: PING OK - Packet loss = 0%, RTA = 52.88 ms [05:40:39] PROBLEM - puppet last run on db2019 is CRITICAL: CRITICAL: puppet fail [05:42:29] RECOVERY - puppet last run on ms-be2002 is OK: OK: Puppet is currently enabled, last run 23 seconds ago with 0 failures [05:43:11] RECOVERY - puppet last run on ms-fe2004 is OK: OK: Puppet is currently enabled, last run 3 seconds ago with 0 failures [05:43:28] RECOVERY - puppet last run on ms-be2003 is OK: OK: Puppet is currently enabled, last run 6 seconds ago with 0 failures [05:43:38] RECOVERY - puppet last run on db2039 is OK: OK: Puppet is currently enabled, last run 22 seconds ago with 0 failures [05:43:48] RECOVERY - puppet last run on db2034 is OK: OK: Puppet is currently enabled, last run 52 seconds ago with 0 failures [05:43:49] RECOVERY - puppet last run on db2019 is OK: OK: Puppet is currently enabled, last run 18 seconds ago with 0 failures [05:43:49] RECOVERY - puppet last run on db2005 is OK: OK: Puppet is currently enabled, last run 46 seconds ago with 0 failures [05:44:49] RECOVERY - puppet last run on ms-be2006 is OK: OK: Puppet is currently enabled, last run 36 seconds ago with 0 failures [05:45:28] RECOVERY - puppet last run on ms-be2004 is OK: OK: Puppet is currently enabled, last run 18 seconds ago with 0 failures [05:46:09] RECOVERY - puppet last run on ms-fe2001 is OK: OK: Puppet is currently enabled, last run 49 seconds ago with 0 failures [05:46:48] RECOVERY - puppet last run on db2036 is OK: OK: Puppet is currently enabled, last run 20 seconds ago with 0 failures [05:46:49] RECOVERY - puppet last run on ms-fe2003 is OK: OK: Puppet is currently enabled, last run 11 seconds ago with 0 failures [05:47:39] RECOVERY - puppet last run on labcontrol2001 is OK: OK: Puppet is currently enabled, last run 31 seconds ago with 0 failures [05:48:09] RECOVERY - puppet last run on install2001 is OK: OK: Puppet is currently enabled, last run 45 seconds ago with 0 failures [05:48:19] RECOVERY - puppet last run on ms-be2011 is OK: OK: Puppet is currently enabled, last run 51 seconds ago with 0 failures [05:53:42] (03PS1) 10Glaisher: Add several domains to wgCopyUploadsDomains for commons [mediawiki-config] - 10https://gerrit.wikimedia.org/r/166176 (https://bugzilla.wikimedia.org/71195) [05:56:29] RECOVERY - puppet last run on bast2001 is OK: OK: Puppet is currently enabled, last run 22 seconds ago with 0 failures [05:57:39] PROBLEM - Host install2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.4) [05:57:48] PROBLEM - Swift HTTP backend on ms-fe2001 is CRITICAL: Connection timed out [05:57:49] PROBLEM - LVS HTTP IPv4 on ms-fe.svc.codfw.wmnet is CRITICAL: Connection timed out [05:57:52] PROBLEM - Swift HTTP backend on ms-fe2003 is CRITICAL: Connection timed out [05:57:58] PROBLEM - Host pollux is DOWN: CRITICAL - Time to live exceeded (208.80.153.43) [05:58:08] PROBLEM - Host achernar is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:58:11] PROBLEM - Host baham is DOWN: CRITICAL - Time to live exceeded (208.80.153.13) [05:58:11] PROBLEM - Host bast2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.5) [05:58:13] PROBLEM - Host ms-be2008 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:13] PROBLEM - Host db2018 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:13] PROBLEM - Host db2011 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:13] PROBLEM - Host db2028 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:13] PROBLEM - Host lvs2005 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:13] PROBLEM - Host db2004 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:14] PROBLEM - Host ms-be2005 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:14] PROBLEM - Host ms-fe2002 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:15] PROBLEM - Host ms-be2006 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:15] PROBLEM - Host db2030 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:16] PROBLEM - Host db2016 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:16] PROBLEM - Host ms-fe2004 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:17] PROBLEM - Host db2034 is DOWN: PING CRITICAL - Packet loss = 100% [05:58:21] PROBLEM - Host db2023 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:58:21] PROBLEM - Host ms-be2002 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:58:30] PROBLEM - Host acamar is DOWN: CRITICAL - Time to live exceeded (208.80.153.12) [05:58:38] PROBLEM - Host 208.80.153.12 is DOWN: CRITICAL - Time to live exceeded (208.80.153.12) [05:58:39] PROBLEM - Host cr1-codfw is DOWN: CRITICAL - Time to live exceeded (208.80.153.192) [05:58:39] PROBLEM - Host labcontrol2001 is DOWN: CRITICAL - Time to live exceeded (208.80.153.14) [05:58:58] PROBLEM - Host cr2-codfw is DOWN: CRITICAL - Time to live exceeded (208.80.153.193) [05:58:59] PROBLEM - Host labs-ns1.wikimedia.org is DOWN: CRITICAL - Time to live exceeded (208.80.153.15) [05:59:00] PROBLEM - Host db2037 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:00] PROBLEM - Host db2017 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:00] PROBLEM - Host ms-be2007 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:00] PROBLEM - Host ms-be2012 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:00] PROBLEM - Host db2005 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:01] PROBLEM - Host ms-be2010 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:01] PROBLEM - Host ms-be2003 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:02] PROBLEM - Host db2019 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:02] PROBLEM - Host ms-be2001 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:03] PROBLEM - Host ms-be2004 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:03] PROBLEM - Host ms-be2011 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:04] PROBLEM - Host db2002 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:04] PROBLEM - Host ms-be2009 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:05] PROBLEM - Host db2007 is DOWN: CRITICAL - Plugin timed out after 15 seconds [05:59:05] PROBLEM - Host 2620:0:860:2:d6ae:52ff:fead:5610 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:2:d6ae:52ff:fead:5610 [05:59:08] PROBLEM - Host ns1-v6 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:ed1a::e [05:59:09] PROBLEM - Host db2038 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:09] PROBLEM - Host db2033 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:10] PROBLEM - Host 208.80.153.42 is DOWN: CRITICAL - Time to live exceeded (208.80.153.42) [05:59:28] PROBLEM - Host 2620:0:860:1:d6ae:52ff:feac:4dc8 is DOWN: /bin/ping6 -n -U -w 15 -c 5 2620:0:860:1:d6ae:52ff:feac:4dc8 [05:59:38] PROBLEM - Host ms-fe.svc.codfw.wmnet is DOWN: PING CRITICAL - Packet loss = 100% [05:59:47] PROBLEM - Host db2029 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:47] PROBLEM - Host ms-fe2001 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:47] PROBLEM - Host db2010 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:47] PROBLEM - Host lvs2001 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:47] PROBLEM - Host lvs2002 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:48] PROBLEM - Host db2009 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:48] PROBLEM - Host ms-fe2003 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:49] PROBLEM - Host db2001 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:49] PROBLEM - Host db2012 is DOWN: PING CRITICAL - Packet loss = 100% [05:59:59] RECOVERY - Host ms-fe2004 is UP: PING OK - Packet loss = 0%, RTA = 52.41 ms [05:59:59] RECOVERY - Host lvs2005 is UP: PING OK - Packet loss = 0%, RTA = 52.09 ms [05:59:59] RECOVERY - Host ms-fe2003 is UP: PING OK - Packet loss = 0%, RTA = 52.57 ms [05:59:59] RECOVERY - Host db2033 is UP: PING OK - Packet loss = 0%, RTA = 51.96 ms [06:00:00] RECOVERY - Host ms-fe2001 is UP: PING OK - Packet loss = 0%, RTA = 53.04 ms [06:00:00] RECOVERY - Host db2016 is UP: PING OK - Packet loss = 0%, RTA = 52.23 ms [06:00:00] RECOVERY - Host db2023 is UP: PING OK - Packet loss = 0%, RTA = 51.68 ms [06:00:09] RECOVERY - Host labcontrol2001 is UP: PING OK - Packet loss = 0%, RTA = 54.03 ms [06:00:09] RECOVERY - Host bast2001 is UP: PING OK - Packet loss = 0%, RTA = 54.23 ms [06:00:09] RECOVERY - Host ms-be2011 is UP: PING OK - Packet loss = 0%, RTA = 52.62 ms [06:00:09] RECOVERY - Host lvs2001 is UP: PING OK - Packet loss = 0%, RTA = 51.95 ms [06:00:09] RECOVERY - Host baham is UP: PING OK - Packet loss = 0%, RTA = 52.01 ms [06:01:10] !log put ms-fe.svc.codfw.wmnet into downtime for the next two days, because I'm tired of getting paged about it :p [06:01:17] Logged the message, Master [06:01:28] RECOVERY - Host 208.80.153.12 is UP: PING OK - Packet loss = 0%, RTA = 52.48 ms [06:01:49] RECOVERY - Host cr1-codfw is UP: PING OK - Packet loss = 0%, RTA = 54.11 ms [06:01:58] RECOVERY - Host 2620:0:860:2:d6ae:52ff:fead:5610 is UP: PING OK - Packet loss = 0%, RTA = 53.30 ms [06:03:28] PROBLEM - puppet last run on db2035 is CRITICAL: CRITICAL: Puppet has 1 failures [06:04:08] PROBLEM - Swift HTTP backend on ms-fe2002 is CRITICAL: Connection timed out [06:04:08] PROBLEM - Swift HTTP backend on ms-fe2001 is CRITICAL: Connection timed out [06:04:08] PROBLEM - Swift HTTP backend on ms-fe2003 is CRITICAL: Connection timed out [06:05:19] PROBLEM - Host ms-fe2001 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:19] PROBLEM - Host lvs2002 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:19] PROBLEM - Host db2010 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:19] PROBLEM - Host lvs2001 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:19] PROBLEM - Host db2012 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:20] PROBLEM - Host db2009 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:20] PROBLEM - Host ms-fe2003 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:21] PROBLEM - Host db2001 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:21] PROBLEM - Host lvs2004 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:22] PROBLEM - Host db2036 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:22] PROBLEM - Host lvs2006 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:23] PROBLEM - Host db2035 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:23] PROBLEM - Host lvs2003 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:24] PROBLEM - Host db2003 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:24] PROBLEM - Host db2039 is DOWN: PING CRITICAL - Packet loss = 100% [06:05:29] RECOVERY - Host db2009 is UP: PING OK - Packet loss = 0%, RTA = 51.73 ms [06:05:29] RECOVERY - Host db2012 is UP: PING OK - Packet loss = 0%, RTA = 51.69 ms [06:05:29] RECOVERY - Host lvs2006 is UP: PING OK - Packet loss = 0%, RTA = 51.69 ms [06:05:29] RECOVERY - Host db2003 is UP: PING OK - Packet loss = 0%, RTA = 51.69 ms [06:05:29] RECOVERY - Host lvs2003 is UP: PING OK - Packet loss = 0%, RTA = 51.73 ms [06:05:30] RECOVERY - Host db2039 is UP: PING OK - Packet loss = 0%, RTA = 51.73 ms [06:05:30]