Grisen backup server

Backup
Grisen har en masse diskplads. Nogle gange bruges den som ekstra backup, under Blå Sommer mest til billeder, video og andet som fylder.

Overvågning
Grisen håndterer overvågning af hosts, routere, services, lokalnet og connectivity på og for DDS Holmen.

På Grisen er installeret Nagios som jævnligt (med få minutters mellemrum) checker om services og hosts kan nåes og det sker inden for en rimelig tid; i modsat fald sendes alerts via email til listen nagios snabel-a list.dds.dk og SMS til relevante personer.

Alerts sendes kun i tidsrummene

mandag 07:30-23:00 tirsdag 07:30-23:00 onsdag 07:30-23:00 torsdag 07:30-23:00 fredag 07:30-23:00 lørdag 09:00-23:00 søndag 09:00-23:00

(belært af en flap'ende host natten til onsdag :-))

Login til Nagios er username=nagiosadmin og password=nagios med stort N og firetal istedet for a. Det er med andre ord ikke specielt hemmeligt, og man er velkommen til at klikke rundt men lad nu være med at pille ved ting du ikke burde pille ved, ellers lukker vi bare af igen :-)

Jeg vil med på email-listen / SMS
Send en email til nagios-subscribe snabel-a list.dds.dk og kontakt Anders vedr. SMS alerts.

Jeg har en service/host/dims jeg gerne vil have overvåget
Læs på Nagios' hjemmeside og se om der ikke findes en plugin dertil. Hvis ikke finder vi nok ud af det alligevel - tag fat i Anders så finder vi ud af det.

Opsætning ligger i: /etc/nagios3

Efter ændringer, genstart med: /etc/init.d/nagios3 reload

Auto(gen)start af webservere
På baloo (hotel.dds.dk) og dingo (dds.dk, spejder.dk) overvåges apache2 dæmonen af monit, som ved for højt load, for lang responstid, for mange fork's eller regulært crash vil vende apache2 og sende email til itglist(snaffela)spejder.dk når det sker. Se /etc/monit/monitrc for detaljer.

På både dingo og baloo er monit sat til at checke en gang i minuttet (kan ændres i /etc/default/monit, cf. CHECK_INTERVALS=60)

Cacti
http://grisen.dds.dk/cacti/

Brugere:
 * admin/cacti
 * itg/itg
 * guest/guest

Kendt problem ved boot

 * Hvad skal man gøre, hvis disk check fejler?

(boot system)

bla... bla...

/dev/hdb1 has gone 249 days without being checked, check forced.

Error allocating icount structure: Memory allocation failed e2fsck: aborted

Prompt text now is: "... give Root PW for maintance or bla...bla..."

(type root password)

Prompt now is:

(Repair filesystem) 1 #

First command:

swapon -a

Prompt now is:

(Repair filesystem) 2 #

Second command:

e2fsck -p /dev/hdb1

Some time passes - up to hours - and you may get the question:

Found bla..bla.. Do you want to fix it? (Y/n)

Answer Y if you have backups. If not, you are in trouble.

Mvsh. Ænkå