Vie interne

Gérer un crash d’application

Par Marie Sautelet, le 30 mars 2017

Ça y est, après des semaines de recette, aucune anomalie ou alerte inquiétante ne subsiste, toute l’équipe est sereine pour l’installation en Production. Les utilisateurs finaux découvrent enfin leur nouvelle version applicative, avec ses fonctionnalités améliorées, ses correctifs et tout semble être sur des rails.


…Et soudain, le drame, la machine est grippée. L’application tombe en panne. Impossible de l’utiliser pendant des heures…voire plusieurs jours ! Ce sont des centaines d’utilisateurs bloqués, des factures qui ne sortent plus, de grosses pertes financières, la réputation de l’outil dégringole… tous les voyants sont au rouge.
En tant que gestionnaire d’application, vous devez alors gérer la crise et faire face à des situations humaines parfois déstabilisantes. Voici nos recommandations pour fluidifier les rouages entre les acteurs dans ce contexte où l’on sort du cadre habituel.

 

rassurer

Quand tout le monde s’accuse :
RASSURER

 

« Ça ce sont les fonctionnels qui ont mal testé ! » 

« Pfff, encore une erreur de paramétrages, ah cette équipe technique… »

Peur d’être pris en défaut quand bien même les tests avaient été correctement déroulés ? Stress de devoir réagir dans l’urgence ? Les perceptions peuvent alors être très exagérées.
Stop, on arrête tout, la première heure n’est pas à l’accusation, ni au pointage des responsabilités immédiates.

→ 1 Règle d’or : s’orienter vers une recherche de solution plutôt que du coupable !
→ Et des moyens :
• Se donner le temps de l’analyse et de la qualification précise du problème.
• Se rappeler la visée commune et faire front ensemble. 
« oui, on ne sait pas encore ce qui se passe, mais on est là, mobilisé avant tout pour rétablir le service ».

Quand personne ne comprend ce qu’il se passe :
S’ORGANISER en CELLULE DE CRISE …

 

En conditions opérationnelles, il arrive que des réponses mettent du temps à venir de la part de vos interlocuteurs. Mais quand vous savez que les utilisateurs finaux sont complètement bloqués dans leur travail et que les cellules d’assistance entendent le téléphone sonner sans discontinuer, il devient hors de question de perdre du temps… à trépigner et attendre !

→ 1 Règle d’or : toutes les compétences et parties prenantes concernées par la résolution du problème  (développeurs, exploitants, équipes techniques et fonctionnelles, testeurs…) doivent être réunies autour de la même table… ou de la même conférence téléphonique.
→ Et des moyens 
• Se concentrer uniquement sur l’objet de la crise.
• Réserver une salle dédiée le temps qu’il faut.
• Réduire à son minimum la documentation nécessaire.

 

… et en BULLE DE SÉRÉNITÉ

 

→ 1 Règle d’or : les équipes doivent pouvoir investiguer le plus calmement possible.
→ Et des moyens :
• Répartir les rôles (ce ne sont pas ceux qui « cherchent » qui s’occupent de la com’ externe !)
• Définir en amont les moments précis où le gestionnaire d’application communique.

Quand tout le monde s’inquiète
COMMUNIQUER, COMMUNIQUER

 

« On est tous dans le même bateau. »

… et même si les premières analyses font chou blanc. La Direction et les utilisateurs vont de toute façon demander des comptes et des explications rapidement. Autant devancer les sollicitations et montrer que tout le monde est sur le pont.

→ 1 règle d’or : dire ce qu’on fait (et faire ce qu’on dit) !
→ Et des moyens : 
• Échanger en toute transparence sur les difficultés rencontrées dans la découverte d’une piste, la mise en place de correctifs, patchs ou sur l’avancée de la résolution.
• Informer la Direction et les utilisateurs avec un vocabulaire adapté à chacun au cours de réunions régulières. Faire participer les utilisateurs finaux à la recherche (demander des précisions sur les conditions d’occurrence des dysfonctionnements, faire tester)

Plus l’acteur qui résout l’incident est proche de l’utilisateur, plus le processus de résolution est efficient.


En situation de crise, les individus doivent agir rapidement et efficacement. S’il paraît difficile d’être logique et rationnel dans ce type de situation, un minimum d’organisation, de formalisation et de prise en compte du facteur humain est nécessaire pour avancer vent dans le dos.

La crise est passée, les équipes atterrissent, l’heure est au REX :  
Si l’erreur est humaine, sa répétition est moins acceptable.
Des conclusions sont alors tirées pour améliorer :

• L’applicatif
• Les process de tests / les circuits de communication
• La gestion de crise / les ressources
Et l’on communique toujours, encore et encore, pour expliquer ce qui est mis en place pour que le problème ne se reproduise pas.