Covid-19: selon une modélisation IA réalisée par les data scientists de Devoteam 800 000 vies sauvées grâce au confinement général. Près de 34 000 décès estimés en confinant uniquement les personnes à risque

24 avril 2020

Depuis le 17 mars, pour limiter la propagation du Covid-19, la France a appliqué des mesures de confinement drastiques et de fortes restrictions de déplacements.

Quel est véritablement l’impact de ce confinement généralisé sur le taux de mortalité et le nombre de cas de contamination ? D’autres modes de confinement plus ciblés auraient-ils pu avoir un effet comparable ? Pour l’équipe de Data Scientists de Devoteam, le constat est sans appel : leur modélisation IA évalue à plus de 800 000 le nombre de vies sauvées en France grâce au confinement.

La modélisation révèle par ailleurs qu’un confinement appliqué uniquement aux personnes à risques (soit 25 millions de personnes), et non à l’ensemble de la population, donne une estimation proche de 34 000 morts.

Etat des lieux de la situation sans / avec confinement total ou ciblé selon la modélisation IA Devoteam.

Situation au 23 avril 2020 :

Baser les mesures de confinement sur des modélisations d’Intelligence artificielle permettrait d’ajuster au mieux les modes de confinement en fonction du contexte, et de doser au plus juste les mesures mises en place. Ces données pourront être utiles pour définir par exemple un plan de déconfinement progressif, ou constituer un outil d’aide à la décision dans le cas, plus dramatique, d’une deuxième vague.


Stanislas de Bentzmann, PDG de Devoteam

Méthodologie et sources des données

Dans cette étude, les équipes IA de Devoteam ont utilisé des données communiquées officiellement par le gouvernement français, les données des hôpitaux et EHPAD, des données open data (Insee notamment)[1] et les données de la caisse primaire de l’assurance maladie. L’analyse a été réalisée sur la base de plusieurs tests statistiques sur ces données et a utilisé des approches Machine Learning pour prédire certaines situations.

L’approche utilisée pour estimer le nombre réel de cas est basée sur la méthodologie SEMMA (sample, explore, modify, model, assess). Les data scientists ont pris en considération le nombre de contaminations estimées par jour depuis le début de l’épidémie (source : Institut Pasteur) et la variance du taux de mortalité annoncé par les différentes communautés scientifiques du monde entier, y compris l’Institut Pasteur (le taux de mortalité varie de 1 à 2 % selon les études).

Les data scientists de Devoteam ont utilisé des algorithmes de Machine Learning de type régression linéaire combinés à des approches développées en interne de type UCB (upper confidence bound (borne supérieure de confiance)) pour trouver le nombre de contaminations estimé par région et au final, en déduire le nombre total de contaminations en France.   

L’approche est donc différente de l’approche statistique paramétrique classique. Le modèle de machine learning utilisé pour les prédictions par Devoteam est un modèle adaptatif, c’est à dire qu’il ajuste ses métriques (features) en fonction des différentes classes d’âges. Par conséquent, le modèle fait preuve d’une certaine intelligence pour adapter le taux de mortalité en fonction de la population et des caractéristiques par région.

L’IA d’estimation définie par Devoteam a été entraînée sur les données INSEE[1] [5], Statista[3] [4], planetoscope[2] et issues d’une étude du laboratoire de Wuhan[6]. Elle embarque des modèles prédictifs hybrides composés des modèles classiques de types arbres décisionnels et régression combinés à des IA symboliques conditionnelles sous contraintes.  En ce qui concerne les jeux de données utilisés pour l’entraînement, des techniques de data augmentation ont été appliquées sur certaines données pour disposer d’une quantité suffisante à l’entraînement.

Situation sans confinement

Avec cette approche IA, le nombre de personnes contaminées dans le cas « sans confinement » est estimé à 46 393 672, soit un facteur de 412 par rapport aux cas annoncés. 

En tenant compte des personnes à risques, le taux de mortalité « sans confinement » augmente de 4,7 % selon les prédictions de notre modèle IA, ce qui donne 802 610 décès. 

Cas de confinement des personnes à risques 

Le nombre de personnes à risques est aujourd’hui de l’ordre de 25 millions, soit plus d’un tiers de la population française (nombre basé sur les données de la CPAM, 2017) et comprend les personnes présentant :

  • Des maladies cardiovasculaires (hypertension artérielle compliquée, accident vasculaire cérébral, coronaropathie, antécédents de chirurgie cardiaque, insuffisance cardiaque stade NYHA III ou IV)
  • Du diabète (diabétiques insulinodépendants non équilibrés ou présentant des complications secondaires à leur pathologie)
  • Des maladies chroniques respiratoires (asthme, mucoviscidose…)
  • Une insuffisance rénale chronique
  • Des cancers (personnes sous traitement)
  • Une cirrhose au stade B au moins
  • Une infection à VIH non contrôlée
  • Une obésité morbide (IMC supérieur à 40kg/m²)

Avec le confinement des personnes à risques uniquement, et leur isolement pendant la période de l’épidémie, l’interdiction des visites dans les EHPAD, et l’isolement des personnes contaminées, l’IA (identique à celle utilisée pour estimer le nombre de contaminations sans confinement, avec par conséquent la même approche algorithmique) calcule que le nombre de personnes contaminées baisse considérablement par rapport à la situation sans confinement, passant à 17 904 354 cas. 

Dans ce cas de figure, le taux de mortalité estimé est de 0,12%, ce qui donne 33 905 décès.  

Dans le cas d’un tel confinement ciblé avec isolement  des personnes à risque dès le début de l’épidémie,  sur les 17 904 354 de cas contaminés, 1 834 personnes se seraient trouvées en situation de réanimation contre 160 522 sans confinement et 5 053 actuellement. Ce chiffre serait moins élevé qu’actuellement, malgré un confinement moins large, car ce confinement aurait été plus stricte sur les personnes à risque et effectué dès les premiers cas identifiés. 

Dernier enseignement de cette étude Devoteam, concernant l’immunité collective cette fois : dans le cas d’un confinement ciblé de la population, l’immunité collective aurait pu être atteinte 3 mois après le début du confinement ciblé. Actuellement, avec la stratégie retenue, le nombre de cas  est trop faible pour pouvoir envisager une telle immunité, ni la calculer de manière fiable.

 

Bibliographie

[1] Nombre de salariés en France – https://www.insee.fr/fr/statistiques/4466574

[2] Nombre de personnes prenant les transports en commun par jour (chaque seconde, ce sont 77 personnes qui prennent un transport en commun urbain en France) https://www.planetoscope.com/Mobilite/1334-nombre-de-trajets-en-transports-en-commun-en-france.htm

[3] Nombre de personnes dans les centres commerciaux et marchés par jour  https://fr.statista.com/statistiques/529501/centres-commerciaux-francais-nombre-visiteurs-annuel/

[4]Nombre de personnes dans les urgences par jou https://fr.statista.com/themes/3462/les-urgences-medicales-en-france/

[5] Le taux de pollution https://www.insee.fr/fr/statistiques/4160040

[6]Clinical Characteristics of 138 Hospitalized Patients With 2019 Novel Coronavirus–Infected Pneumonia in Wuhan, China

  • Taux de pénétration du virus
  • Durée de vie du virus sur les obstacles
  • La vitesse de transmission du virus

 

devoteam