Utiliser le machine learning pour optimiser la maintenance corrective et préventive des systèmes d’information n’est plus une option, mais une nécessité. La plupart des méthodes mathématiques utilisées par l’AI existent depuis le milieu du siècle dernier.

Néanmoins, ces approches connaissent un essor depuis quelques années grâce à l’augmentation massive des capacités de calcul & stockage, couplée avec une diminution significative de leurs coûts et une abondance croissante de données. L’AI Ops offre une réponse à 3 tendances de fond qui impactent les DSI :

  1. Complexité et volatilité en hausse. De la distribution des moyens de calcul vers ce que l’on appelle « the digital mesh» à la croissance des technologies hétérogènes employées par les opérateurs des systèmes d’informations et la réduction forte des cycles de vie de ces technologies, l’environnement des DSI est de plus en plus complexe et volatil. Les DSI dépensent environ 15% de leurs budgets à maintenir la qualité des services digitaux ; entre 2% et 4% sur la maintenance curative et environ 10% à 12% sur la maintenance préventive. Avec la croissance de la complexité des SI, nous pouvons nous attendre à ce que la part des budgets allouée à la gestion d’une bonne qualité des services digitaux augmente dans les années à venir.
  2. Accélération des transformations digitales. Rares sont les entreprises qui n’investissent pas dans leur transformation digitale. La croissance de la part des processus qui sont digitalisés induit une augmentation des infrastructures, des réseaux et des applications exploités, ce qui augmente la quantité de logs, d’événements, d’alertes et d’incidents que chaque DSI doit monitorer et piloter. Une entreprise qui exploite 10K serveurs gère environ 30 millions d’événements chaque jour (3K événements/jour/serveur en moyenne) soit plus de 20K événements par minute ! Sans outillage, cette tâche serait insurmontable. De surcroit, lorsque la productivité d’une entreprise devient dépendante de ses systèmes d’information, on comprend comment 1 minute d’indisponibilité d’un service digital peut coûter 5 300€ (Gartner) ; la pression sur les DSI de maintenir une haute disponibilité des services digitaux est parfaitement logique.
  3. Attentes fortes des utilisateurs. Les utilisateurs des services digitaux s’attendent à une qualité sans faille. L’habitude de consommer des applications distribuées par les FAANG (Facebook, Amazon, Apple, Netflix, Google …) a clairement augmenté ce que l’on perçoit comme « la norme » en matière d’ergonomie. Cette nouvelle norme n’est pas exigée uniquement par les clients, mais aussi par les collaborateurs de chaque entreprise. Pour assurer que la qualité des services digitaux consommés par les utilisateurs soit au rendez-vous, la DSI doit agir avant que l’utilisateur s’aperçoit qu’il y a un problème. Plutôt que d’être en mode réactif, les DSI doivent devenir de plus en plus proactives.

Les technologies à base de machine learning ont la capacité d’apprendre, c’est-à-dire de s’adapter aux environnements changeants, sans intervention humaine … et rapidement.

A partir des indicateurs qui qualifient la qualité de production (latence des réseaux, latences des bases de données, taux d’utilisation du CPU, taux d’utilisation de la mémoire, etc.) les algorithmes relient ce niveau de performance à un ensemble de vecteurs composés de métriques sous-jacentes qui « expliquent » cette performance. Lorsque les référentiels sont constitués et les algorithmes sont « entrainés » il devient possible de prédire le comportement des systèmes complexes – c’est à dire de déceler les environnements à risque et définir des actions correctives avant que des incidents se produisent.

Ces technologies peuvent être utilisées pour optimiser le fonctionnement de 5 domaines distincts :

  • Infrastructures; analyses d’événements et d’alertes, identification des causes racines d’incidents
  • Réseaux; prédiction de trafic et optimisation du routage
  • Qualité de service; analyse et optimisation du comportement des applications
  • Sécurité; identification des faiblesses de défense, des menaces et des plans de remédiation
  • Capacités; prévision des besoins de calcul/stockage/réseaux, rightsizing des infrastructures

Les technologies AI Ops mobilisent un écosystème couvrant 6 domaines fonctionnels clé :

  • Agents; pour capter les métriques sur chaque item de configuration monitoré (de l’infrastructure aux applications)
  • Parseurs; pour standardiser les données en provenance des systèmes hétérogènes et les rendre comparables
  • Bases de données agiles; SQL et surtout NOSQL, permettant l’indexation des données et la construction de schémas relationnels selon les besoins ad hoc des opérateurs
  • Modules analytiques pour construire les algorithmes de machine learning
  • Visualisation des données et restitution des rapports aux principaux intéressés
  • Il convient enfin d’ajouter des API à la sortie, afin que les systèmes en aval puissent exploiter les prédictions et recommandations pour automatiser les actions de remédiation

Pour réussir le déploiement de solutions AI Ops, trois leçons sont à retenir. La première est qu’il n’y a pas de technologie miracle sur le marché que l’on puisse installer pour bénéficier de tous les avantages de l’intelligence artificielle du jour au lendemain. La deuxième est que le « service modelling » est l’une des étapes fondamentales à maîtriser en amont car la visibilité des dépendances entre les infrastructures, les réseaux, les OS, les middlewares et les applications est critique pour automatiser l’analyse de la performance et l’identification des causes racines des incidents. Enfin … lorsque les plateformes sont en place et que l’on peut commencer à développer les algorithmes, il est recommandé d’éviter des logiques « Big bang » au profit d’approches au coup par coup, focalisées sur les problèmes réels et l’impact opérationnel des solutions.

Vos commentaires

9 + 3 =