[FRsAG] Alerting Grafana vs Icinga2

Rémy Dernat remy.dernat at umontpellier.fr
Jeu 1 Juil 11:21:46 CEST 2021


Bonjour,

De mon côté, j'utilise un rapsberry en observation sur l'infra. A une 
époque, j'utilisais l'alerting de google agenda (car gratuit) en créant 
des évènements immédiats avec rappel SMS / notification. Puis c'est 
devenu impossible et je suis passé par mon FAI pour envoyer des SMS. 
Finalement, je me contente désormais d'envoyer des mails. Tout est en 
python (mail) ou en php (sms) et j'ai toujours les codes si ça en 
intéresse certains.

Cordialement,

Le 28/06/2021 à 12:10, Noirbusson Matthieu a écrit :
> De notre côté on a développé un test cyclique qui envoie une notif 
> très régulièrement vers un robot à l'extérieur qui nous alerte s'il ne 
> reçoit rien. C'est compliqué d'aller plus loin...
>
> Le lun. 28 juin 2021 à 11:18, Wallace <wallace at morkitu.org 
> <mailto:wallace at morkitu.org>> a écrit :
>
>     Bonjour Julien,
>
>     De notre côté on était Nagios et Munin on a presque fini de migrer
>     tout sur Prometheus / Grafana, il restera un bout de Nagios pour
>     les supervisions à gérer à la main hors infogérance et dépannage.
>     Car on a profité
>
>     Pour la notification on a des règles assez strictes qui ne nous
>     réveillent que quand nécessaire et que pour des services sur
>     lesquels nous avons la main.
>
>     Pour la notification question indépendance on a aussi fait ce
>     choix et nous avons deux mini pc avec des modem gsm pour envoyer
>     les textos. Un petit programme perl fait le load balancing des
>     alertes sur les deux boitiers et est capable de gérer le failover
>     si un des deux boitiers n'est pas joignable (ils sont sur des
>     réseaux IP et opérateur gsm différents dans des lieux différents).
>
>     Les services extérieurs de notification vous faites comment quand
>     c'est votre backbone / réseau managé par un tiers qui tombe et que
>     vos sondes ne sont plus capables d'envoyer leurs notifications?
>     Pour avoir déjà connu ce genre de souci, c'est un boitier sms sur
>     un des sites de production joignable en local par un alertmanager,
>     et l'autre boitier sms en dehors de notre réseau avec une autre
>     sonde Nagios / Prom qui monitore depuis l'extérieur notre réseau.
>
>     Quand y a une isolation réseau on a double notification ce qui
>     confirme que c'est pas juste un bgp qui bagote.
>
>     Voilà pour nous
>
>     Le 25/06/2021 à 16:13, Julien Escario a écrit :
>>     Bonjour,
>>
>>     Petite problématique du vendredi : actuellement, nous utilisons Icinga2
>>     avec l'excellent Anag [1] de Damian Degois pour nous réveiller au milieu
>>     de la nuit si un morceau de notre infra part en vrille (j'aurais pu
>>     utiliser 'torche' mais je crois que les masses ne sont pas prêtes encore).
>>
>>     Souhaitant basculer le stockage sur InfluxDB (question de perf), nous
>>     aimerions utiliser Telegraf pour faire la remontée des métriques mais
>>     cela nous empêche d'utiliser la partie API de Icinga2. Ou alors il faut
>>     faire un double monitoring : alertes SNMP & Ping avec Icinga2 et
>>     métriques via Telegraf. Je ne trouve pas ça très satisfaisant.
>>
>>     Je me suis pas mal documenté sur des exemples que j'ai trouvés ici et là
>>     mais on dirait que la plupart des boites ont des gens qui regardent un
>>     écran 24h/24 et que personne ne voit l'intérêt de pouvoir dormir de
>>     temps à autre.
>>
>>     Les rares qui font ça passent par des services tiers type Pagerduty mais
>>     ça ne me tente pas non plus, pour une question d'indépendance sur un
>>     sujet qui est quand même très critique. Pas très envie de multiplier les
>>     SPoF.
>>
>>     Du coup, ma question : et vous, comment faites vous ?
>>
>>     A) Pagerduty
>>     B) un insomniaque dans l'équipe
>>     C) la réponse D
>>
>>     Merci d'avance pour votre partage !
>>
>>     Julien
>>
>>     [1]
>>     https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag  <https://play.google.com/store/apps/details?id=info.degois.damien.android.aNag>
>>
>>
>>     _______________________________________________
>>     Liste de diffusion du FRsAG
>>     http://www.frsag.org/  <http://www.frsag.org/>
>     _______________________________________________
>     Liste de diffusion du FRsAG
>     http://www.frsag.org/ <http://www.frsag.org/>
>
>
>
> -- 
> Matthieu Noirbusson
>
> _______________________________________________
> Liste de diffusion du FRsAG
> http://www.frsag.org/

-- 
Rémy Dernat
Chef de projet SI
IR CNRS - ISI / ISEM

-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://www.frsag.org/pipermail/frsag/attachments/20210701/bf0936de/attachment.htm>
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: OpenPGP_0xCF65C2676B3A1402.asc
Type: application/pgp-keys
Taille: 3070 octets
Desc: OpenPGP public key
URL: <http://www.frsag.org/pipermail/frsag/attachments/20210701/bf0936de/attachment.key>
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: OpenPGP_signature
Type: application/pgp-signature
Taille: 840 octets
Desc: OpenPGP digital signature
URL: <http://www.frsag.org/pipermail/frsag/attachments/20210701/bf0936de/attachment.sig>


Plus d'informations sur la liste de diffusion FRsAG