Alerting en production : retour d’expérience d’une équipe en transformation  

Derrière les produits LetReco, il y a des choix technologiques forts — parfois invisibles, mais toujours pensés pour garantir sécurité, transparence et souveraineté des données.
À travers une série d’articles plus techniques, nous avons envie de partager ce qui se passe dans les coulisses : nos outils, nos méthodes, et parfois aussi nos questionnements.

Etat initial : un système d’audit performant mais limité

Depuis plusieurs années, notre équipe dispose d’un outil d’audit.   
 
Son fonctionnement est relativement simple, chaque action impactante ou anomalie est loguée sous forme de donnée semi-structurée.  
 
L’application étant mise à l’échelle horizontalement, ces données sont ensuite absorbées de façon asynchrone dans une base NoSQL centralisée.  
 
Une interface globale disposant d’un moteur de recherche nous permet ensuite de les consulter.  

Les limites du système existant 

Cette approche s’est révélée très efficace pour analyser un incident précis (dossier problématique, anomalie majeure, etc.). Mais avec l’augmentation de notre activité, le système a montré ses limites :  
 
– L’interface graphique, succincte et sous forme de liste d’événements, n’est pas adaptée à l’analyse de masse.  
– Les haute fréquences informationnelles sont noyées dans la masse de données.  
 
– Le suivi de l’ensemble des messages est chronophage et le résultat reste aléatoire.  

Passer de l’audit à la détection : identifier les risques rapidement 

Face à ce constat, nous avons défini nos priorités :  
 
– Réutiliser nos données d’audit existantes sans repartir de zéro  

– Détecter automatiquement les changements de comportements majeurs (hausse du taux d’échec).  
 
– Améliorer l’exploitabilité des audits et accélérer leur analyse  

Objectif principal : détecter rapidement et de manière claire les risques de sécurité, ainsi que les pannes ou problèmes auxquels nos clients ou notre équipe pourraient être confrontés. 

Choix technologiques et prototype

Après étude, les bases NoSQL se sont imposées comme le socle idéal pour notre prototype.  

Plusieurs pistes ont été envisagées : 

OpenSearch 

  • OpenSearch (fork de ELK : Stack ElasticSearch, Logstash, Kibana), il s’agit d’un agrégateur de log (logstash), d’une ‘base de données‘ noSQL(opensearch) et d’un outil de visualisation(dashboard).

MongoDB et Grafana 

  • MongoDB avec un outil de visualisation propre avec Grafana. 

PostgreSQL et JSON 

  • Exploitation de notre solution PostgreSQL actuelle en l’enrichissant de ses extensions JSON. 

Ayant déjà travaillé sur ces outils, nous avons pu concevoir notre propre solution sur mesure

Résultats : alerting proactif et pilotage rapide 

A l’issue de la mise en place, nous disposons aujourd’hui d’un outil capable de :  
 
– Déclencher des alertes dès que certaines métriques passent sous un seuil ‘cible’.  
– Identifier rapidement les anomalies flagrantes : quelques minutes suffisent pour un suivi quasi exhaustif de la production.  
– Repérer les comportements suspects grâce à des fonctionnalités SIEM 

Bénéfices concrets 

  • Détection proactive des incidents 
  • Investigation plus rapide 
  • Validation efficace des mises en production 

Limites et perspectives   

L’exploitation de la solution actuelle nous a permis d’identifier plusieurs axes d’amélioration : 
– certaines informations manquent dans certains types d’événements.   
– d’autres sont loguées différemment, selon le type d’évènement.  

Nos perspectives d’évolution 

Nous prévoyons également d’enrichir notre vision en agrégeant les logs applicatifs bruts (stack traces, info des applications java, appels http issus des proxys). 

Communication et collaboration : renforcer l’efficacité de l’alerting

Au-delà de l’aspect technique, nous avons constaté l’importance de la communication structurée entre les équipes.  

Un canal commun permet désormais d’informer toutes les parties prenantes en temps réel, réduisant la dispersion et garantissant un accès équitable à l’information. 

Bonnes pratiques mises en place 

Enfin, la mise en place d’une procédure d’utilisation et d’un suivi formalisé a permis de sortir l’alerting du cadre informel, pour en faire un vrai levier collectif

Conclusion : passer de la surveillance à la détection intelligente 

Mettre en place un système d’alerting, c’est bien plus qu’un projet technique. C’est passer d’une logique de monitoring passif à une veille proactive : détecter automatiquement les anomalies, incidents ou dérives, prévenir les bonnes personnes au bon moment et agir avant que les utilisateurs soient impactés  

L’expérience montre que passer de l’observation à la détection intelligente constitue un véritable cap dans la gestion opérationnelle. 

Le suivi quotidien devient alors un baromètre pour la plateforme, capable de détecter les anomalies ponctuelles et les signaux faibles. Intégré au rythme opérationnel et aux outils d’audit, le système permet une vérification rapide et ciblée, garantissant une intervention immédiate en cas de dérive.

Facteurs clés de succès 

  • Qualité des logs 
  • Diffusion transverse de l’information 
  • Gestion efficace des problèmes  
  • Personnalisation des alertes selon le client 

L’alerting ne se limite pas à la technique. Il fédère les équipes support, de développement et de production autour de processus clairs et d’une communication structurée pour renforcer la réactivité, la coordination et la confiance. 

L’auteur de cet article :

Frédéric PINTE, Dév senior

Mon rôle chez LetReco va bien au-delà du développement : je supervise la stabilité et la performance de nos applications critiques. Grâce à des outils de suivi, je m’assure qu’elles fonctionnent sans accroc et restent toujours au service de nos clients.