Reportage : ces ingénieurs gardiens de la qualité du réseau Orange
L’oeil du réseau
Vous souvenez vous du 6 juillet 2012 ? Ce jour-là, un bug logiciel a fait tomber le réseau Orange. Pendant sept heures, 90 % des abonnés de l’opérateur n’ont pas pu placer d’appel ni échanger de SMS et encore moins aller sur internet. Cette crise presque sans précédent a mobilisé des centaines de personnes, mais le centre névralgique des opérations était la salle de supervision du réseau. Récemment déménagée dans un nouveau bâtiment, cette salle si importante pour Orange nous a ouvert ses portes. Venez, allons visiter !
Pas de répit pour les ingés
Cette salle, située dans l’ex siège d’Orange, dans le 15e arrondissement de Paris, ne paie pas de mine. Un open space d’une centaine de mètres carrées, deux rangées de bureaux, beaucoup d’écrans. Mais sur ces écrans remontent toutes les alertes, tous les problèmes constatés sur l’ensemble des réseaux de l’opérateur, fixes ou mobiles, grand public ou professionnel, dans toute la France (seuls les grands comptes entreprises sont gérés à part). Dans cette salle, 100 personnes se relaient pour assurer une surveillance permanente, 24 h sur 24, 7 jours sur 7.
Visualisation temps réel
La salle de supervision ne s’intéresse toutefois qu’aux services, pas aux équipements. Sur ce grand mur d’images, des cartes de France dynamiques, des graphiques affichent en temps réel l’état des services du réseau : voix, SMS, internet, TV, VoD. Si un défaut est constaté, les ingénieurs prennent contact avec les services techniques locaux, répartis dans toute la France, qui, eux, interviennent sur les équipements si besoin.
Robots et sondes à l’écoute
Pour cette surveillance, Orange utilise différents moyens : des robots (des scripts automatisés qui testent en permanence un service donné), des sondes fournies par des spécialistes (Witbe, Ip-label, qui mesure la qualité des connexions), les outils livrés par les fournisseurs des équipements et enfin des outils développés en interne. Par exemple, Orange a créé un test pour vérifier l’absence de gels de l’image sur sa TV. Tous ces indicateurs sont rassemblés dans une interface commune.
Les abonnés plus efficaces que les robots
Mais ce n’est pas tout. Orange puise aussi dans la surveillance active réalisée par ses millions de clients. La salle de supervision peut ainsi être alertée d’un problème par les centres d’appels : si le souci d’un abonné n’a pas pu être résolu par les niveaux 1, 2 et 3 du service client, il peut être lié à un problème plus étendu et son cas parvient aux superviseurs. Cela représente environ 1 % des cas clients.
La salle de supervision est aussi en contact avec le Social Hub d’Orange (en photo ci-contre) qui lui remonte les problèmes dont elle entend parler sur les réseaux sociaux. Autrement dit : n’hésitez plus à vous plaindre sur Twitter ou Facebook, les grandes oreilles d’Orange sont à votre écoute !
3,5 Tbit/s !
Comme tous les opérateurs, Orange doit faire face à augmentation rapide de l’utilisation de son réseau. Le trafic IP double tous les deux ans, il atteint aujourd’hui presque 3,5 Tbit/s au pic de la journée, à midi.
Les courbes de trafic sont d’ailleurs incroyablement similaires d’une semaine à une autre, presque superposables. Cela permet à l’opérateur de constater très rapidement une anomalie et de prévoir les interventions. La majoritédes dizaines de milliers d’opérations de maintenanceréalisées sur le réseau annuellement sont ainsi calées pendant la période de nuit profonde, entre 2 h et 5 h du matin quand même le plus tenace des geeks cède à l’impératif du sommeil. Le trafic internet est alors divisé par 7 et tombe sous les 500 Gbit/s.
Un mini réseau à dispo
Lorsqu’une alerte se déclenche, la première réaction des superviseurs est de tenter de reproduire le problème. Pour ce faire, ils disposent d’un ensemble de matériels reproduisant tous les types de connexions (mobiles, 2G, 3G, 4G ou fixes, ADSL, VDSL, fibre, satellite, etc.), des différentes LiveBox et d’un panel de smartphones de divers constructeurs.
Un pilote par service
Chaque service est supervisé par un pilote de service, qui participe à son élaboration, gère les incidents, puis la communication interne et ensuite, a posteriori, la capitalisation sur incident, le retour d’expérience. Après la confirmation de l’incident, le pilote alerte les services techniques concernés. Une fois qu’eux pensent avoir trouvé une solution, le pilote teste à nouveau, puis, si l’incident est clos, avertit à nouveau toute la chaîne. Ici, Vincent D’Herouville, pilote de service IPTV, constate un défaut de l’affichage de MyTF1 sur un accès satellite.
La communication interne est la clé
La salle de supervision informe alors le carrefour de l’information de l’opérateur. Ce portail permet à tous les services concernés d’être mis au courant. Tous les superviseurs reçoivent un SMS. Le service client peut ainsi répondre aux abonnés inquiets que le problème est connu et en cours de résolution. Si possible, la salle de supervision donne une date de fin d’incident et une solution de contournement en attendant.
Faire face aux grands événements
La salle de supervision est également très sollicitée lors des grands événements. Orange met par exemple en place un dispositif spécifique pour chaque soirée du nouvel an, qui génère toujours un pic d’envoi de SMS et d’appels. Autre exemple, l’Euro 2016, pour lequel l’opérateur va installer des antennes relais supplémentaires (et temporaires) dans et aux abords des stades. Ce genre d’événement est assez facile à gérer car prévisible.
Au contraire, les événements imprévus posent de réels défis à Orange et autres opérateurs. À Paris, les marches blanches du 10 et 11 janvier 2015 (photo de Yann Caradec, CC BY-SA 2.0) ont poussé le réseau mobile dans ses derniers retranchements. La densité de population dans les rues de la capitale a atteint des sommets jamais vus, ce qui a saturé les antennes relais. Dans ce genre de situation, les opérateurs peuvent temporairement augmenter la capacité de chaque antenne en dégradant quelque peu la qualité de la connexion et priorisant les appels face au trafic internet.
Les derniers articles