Etat initial : un système d’audit performant mais limité
Depuis plusieurs années, notre équipe dispose d’un outil d’audit.
Son fonctionnement est relativement simple, chaque action impactante ou anomalie est loguée sous forme de donnée semi-structurée.
L’application étant mise à l’échelle horizontalement, ces données sont ensuite absorbées de façon asynchrone dans une base NoSQL centralisée.
Une interface globale disposant d’un moteur de recherche nous permet ensuite de les consulter.
Les limites du système existant
Cette approche s’est révélée très efficace pour analyser un incident précis (dossier problématique, anomalie majeure, etc.). Mais avec l’augmentation de notre activité, le système a montré ses limites :
– L’interface graphique, succincte et sous forme de liste d’événements, n’est pas adaptée à l’analyse de masse.
– Les haute fréquences informationnelles sont noyées dans la masse de données.
– Le suivi de l’ensemble des messages est chronophage et le résultat reste aléatoire.
Passer de l’audit à la détection : identifier les risques rapidement
Face à ce constat, nous avons défini nos priorités :
– Réutiliser nos données d’audit existantes sans repartir de zéro
– Détecter automatiquement les changements de comportements majeurs (hausse du taux d’échec).
– Améliorer l’exploitabilité des audits et accélérer leur analyse
Objectif principal : détecter rapidement et de manière claire les risques de sécurité, ainsi que les pannes ou problèmes auxquels nos clients ou notre équipe pourraient être confrontés.
Choix technologiques et prototype
Après étude, les bases NoSQL se sont imposées comme le socle idéal pour notre prototype.
Plusieurs pistes ont été envisagées :
OpenSearch
- OpenSearch (fork de ELK : Stack ElasticSearch, Logstash, Kibana), il s’agit d’un agrégateur de log (logstash), d’une ‘base de données‘ noSQL(opensearch) et d’un outil de visualisation(dashboard).
MongoDB et Grafana
- MongoDB avec un outil de visualisation propre avec Grafana.
PostgreSQL et JSON
- Exploitation de notre solution PostgreSQL actuelle en l’enrichissant de ses extensions JSON.
Ayant déjà travaillé sur ces outils, nous avons pu concevoir notre propre solution sur mesure.
Résultats : alerting proactif et pilotage rapide
A l’issue de la mise en place, nous disposons aujourd’hui d’un outil capable de :
– Déclencher des alertes dès que certaines métriques passent sous un seuil ‘cible’.
– Identifier rapidement les anomalies flagrantes : quelques minutes suffisent pour un suivi quasi exhaustif de la production.
– Repérer les comportements suspects grâce à des fonctionnalités SIEM
Bénéfices concrets
- Détection proactive des incidents
- Investigation plus rapide
- Validation efficace des mises en production
Limites et perspectives
L’exploitation de la solution actuelle nous a permis d’identifier plusieurs axes d’amélioration :
– certaines informations manquent dans certains types d’événements.
– d’autres sont loguées différemment, selon le type d’évènement.
Nos perspectives d’évolution
Nous prévoyons également d’enrichir notre vision en agrégeant les logs applicatifs bruts (stack traces, info des applications java, appels http issus des proxys).
Communication et collaboration : renforcer l’efficacité de l’alerting
Au-delà de l’aspect technique, nous avons constaté l’importance de la communication structurée entre les équipes.
Un canal commun permet désormais d’informer toutes les parties prenantes en temps réel, réduisant la dispersion et garantissant un accès équitable à l’information.
Bonnes pratiques mises en place
Enfin, la mise en place d’une procédure d’utilisation et d’un suivi formalisé a permis de sortir l’alerting du cadre informel, pour en faire un vrai levier collectif.
Conclusion : passer de la surveillance à la détection intelligente
Mettre en place un système d’alerting, c’est bien plus qu’un projet technique. C’est passer d’une logique de monitoring passif à une veille proactive : détecter automatiquement les anomalies, incidents ou dérives, prévenir les bonnes personnes au bon moment et agir avant que les utilisateurs soient impactés
L’expérience montre que passer de l’observation à la détection intelligente constitue un véritable cap dans la gestion opérationnelle.
Le suivi quotidien devient alors un baromètre pour la plateforme, capable de détecter les anomalies ponctuelles et les signaux faibles. Intégré au rythme opérationnel et aux outils d’audit, le système permet une vérification rapide et ciblée, garantissant une intervention immédiate en cas de dérive.
Facteurs clés de succès
- Qualité des logs
- Diffusion transverse de l’information
- Gestion efficace des problèmes
- Personnalisation des alertes selon le client
L’alerting ne se limite pas à la technique. Il fédère les équipes support, de développement et de production autour de processus clairs et d’une communication structurée pour renforcer la réactivité, la coordination et la confiance.
L’auteur de cet article :
Frédéric PINTE, Dév senior
Mon rôle chez LetReco va bien au-delà du développement : je supervise la stabilité et la performance de nos applications critiques. Grâce à des outils de suivi, je m’assure qu’elles fonctionnent sans accroc et restent toujours au service de nos clients.

