Covid-19 : une modélisation IA réalisée par Devoteam souligne l’efficacité d’une stratégie de dépistage massif

07 mai 2020

Covid-19 : une modélisation IA réalisée par les data scientists de Devoteam, basée sur un scénario sans confinement, révèle : 1) sur 59 M d’Allemands contaminés, 290 000 décès, 2) sur 46 M de Français contaminés, 800 000 décès; et souligne l’efficacité d’une stratégie de dépistage massif.

Les différences en termes de nombre de décès entre la France et l’Allemagne ne cessent d’alimenter les débats relatifs à la gestion de la crise : plus de 25 000 décès dans l’Hexagone contre un peu plus de 7 000 en Allemagne.

Les data scientists de Devoteam ont modélisé la diffusion de l’épidémie en France et en Allemagne, en étudiant des scénarios sans confinement et en confinement ciblé. Il en ressort que l’Allemagne s’en sort beaucoup mieux, notamment grâce à sa politique de dépistage à grande échelle et de détection précoce, avec plus de 300 000 tests réalisés par semaine.

L’écart réel observé aujourd’hui est confirmé par la modélisation IA Devoteam en scénario de non-confinement, qui fait ressortir les différences de stratégie de chaque gouvernement.

Etat des lieux de la situation sans / avec confinement total ou ciblé selon la modélisation IA Devoteam :

NB: le nombre de cas réels de contaminations actuelles [12] est plus précis pour l’Allemagne que pour la France puisqu’elle réalise beaucoup plus de tests par semaine. En effet, l’IA prédit que le nombre de cas réels serait 9 fois supérieur au cas confirmés en France, et seulement 1,8 fois supérieur en Allemagne.

D’après la modélisation IA réalisée par les équipes de data scientists de Devoteam, dans un contexte sans confinement, l’Allemagne aurait eu plus de cas de contamination, à savoir plus de 59 millions (sur 83 millions d’habitants) contre plus de 46 millions en France (sur 67 millions d’habitants). Cependant, le nombre de décès aurait été près de trois fois inférieur, avec plus de 290 000 morts sur le sol allemand, contre plus de 800 000 morts sur le territoire français. 
L’Allemagne, grâce à sa grande capacité à réaliser des tests de dépistage et donc de détection précoce, est plus stricte sur l’isolement des personnes potentiellement porteuses du virus, même asymptomatiques, ce qui réduit considérablement sa vitesse de propagation [7].

Le nombre de contaminations prédit dans la situation sans confinement n’est pas proportionnel au pourcentage de la population du pays en question, mais impacté par les paramètres du modèle IA dont les plus importants sont la vitesse de propagation du virus [8] dans chaque pays et la circulation des individus.  

Méthodologie et sources des données 

Dans cette étude, les équipes IA de Devoteam ont utilisé des données communiquées officiellement par le gouvernement français, l’Institut Pasteur, l’Institut Robert Koch, les données des hôpitaux et EHPAD, des données open data (Insee et l’Office fédéral des Statistiques allemand – Statistisches Bundesamt notamment [9])[1] et les données de la caisse primaire de l’assurance maladie. Elles ont été combinées avec des données sur le déplacement en transport public et les habitudes d’achats alimentaires :  des sources d’informations que les épidémiologistes n’utilisent pas en général, mais qui sont essentielles pour calculer les probabilités de propagation. 

L’analyse a été réalisée sur la base de plusieurs tests statistiques sur ces données et a utilisé des approches Machine Learning pour prédire certaines situations. Il convient de préciser que l’approche utilisée est  fondée purement sur la smart data et des modèles entraînés sur des paramètres pondérés, ce qui diffère cette approche des méthodes statistiques classiques basées sur des échantillons de populations. 

En ce qui concerne le modèle qui prédit le nombre de décès, il combine plusieurs caractéristiques dont les plus impactants sont la capacité à prendre en charge les personnes gravement atteintes (nombre de lits respiratoires), la vitesse de réapprovisionnement des services de réanimations, et surtout la prise en charge précoce des patients à risque [11] dès les premiers jours d’incubation du virus [8]. Ce qui explique le faible nombre de décès en Allemagne par rapport à la France, puisque l’Allemagne, avec 300 000 tests par semaine contre 35 000 en France, est capable d’identifier très vite les personnes positives (même sans symptômes) et par conséquent d’organiser une prise en charge rapide et efficace dès le début. 

L’approche utilisée pour estimer le nombre réel de cas est basée sur la méthodologie SEMMA (sample, explore, modify, model, assess). Les data scientists ont pris en considération le nombre de contaminations estimées par jour depuis le début de l’épidémie (source : Institut Pasteur) et la variance du taux de mortalité annoncé par les différentes communautés scientifiques du monde entier, y compris l’Institut Pasteur (le taux de mortalité varie de 1 à 2 % selon les études).

Les data scientists de Devoteam ont utilisé des algorithmes de Machine Learning de type régression linéaire combinés à des approches développées en interne de type UCB (upper confidence bound (borne supérieure de confiance)) pour trouver le nombre de contaminations estimé par région et au final, en déduire le nombre total de contaminations en France.   

L’approche est donc différente de l’approche statistique paramétrique classique. Le modèle de Machine Learning utilisé pour les prédictions par Devoteam est un modèle adaptatif, c’est à dire qu’il ajuste ses métriques (features) en fonction des différentes classes d’âges [10], différentes régions et différents comportements des habitants par région. Par conséquent, le modèle fait preuve d’une certaine intelligence pour adapter le taux de mortalité en fonction de la population et des caractéristiques par région.

L’IA d’estimation définie par Devoteam a été entraînée sur les données INSEE[1] [5], Statista[3] [4], planetoscope[2] et issues d’une étude du laboratoire de Wuhan[6]. Elle embarque des modèles prédictifs hybrides composés des modèles classiques de types arbres décisionnels et régression combinés à des IA symboliques conditionnelles sous contraintes.  En ce qui concerne les jeux de données utilisés pour l’entraînement, des techniques de data augmentation ont été appliquées sur certaines données pour disposer d’une quantité suffisante à l’entraînement.

De plus, Devoteam a validé la robustesse de l’IA sur des résultats intermédiaires jusqu’à début avril. En effet, les résultats prédits du nombre de décès ont été comparés par rapport au nombre de décès réels de la situation actuelle, ce qui a donné des résultats très proches de la situation actuelle. Le pourcentage de précision des prédictions varie entre 90,3% et 96,7 % en fonction de la date. Les data scientists ont ensuite construit ce qu’on appelle une matrice de confusion pour valider la qualité du modèle ML.

 

Bibliographie 

[1] Nombre de salariés en France – https://www.insee.fr/fr/statistiques/4466574 – 

[2] Nombre de personnes prenant les transports en commun par jour (chaque seconde, ce sont 77 personnes qui prennent un transport en commun urbain en France) https://www.planetoscope.com/Mobilite/1334-nombre-de-trajets-en-transports-en-commun-en-france.htm

[3] Nombre de personnes dans les centres commerciaux et marchés par jour  https://fr.statista.com/statistiques/529501/centres-commerciaux-francais-nombre-visiteurs-annuel/

[4]Nombre de personnes dans les urgences par jou https://fr.statista.com/themes/3462/les-urgences-medicales-en-france/

[5] Le taux de pollution https://www.insee.fr/fr/statistiques/4160040

[6]Clinical Characteristics of 138 Hospitalized Patients With 2019 Novel Coronavirus–Infected Pneumonia in Wuhan, China

  • Taux de pénétration du virus 
  • Durée de vie du virus sur les obstacles 
  • La vitesse de transmission du virus

[7]https://www.unibe.ch/aktuell/medien/media_relations/medienmitteilungen/2020/medienmitteilungen_2020/coronavirus_berner_forscher_berechnen_die_ausbreitung/index_ger.html

[8]https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Situationsberichte/2020-05-06-en.pdf?__blob=publicationFile

[9]https://www.destatis.de/EN/Themes/Society-Environment/Population/Current-Population/_node.html

[10]https://www.destatis.de/EN/Themes/Society-Environment/Health/Causes-Death/Tables/deaths-cardiovascular-disease-total.html

[11]https://de.statista.com/statistik/daten/studie/707617/umfrage/umfrage-zur-verbreitung-von-chronischen-krankheiten-in-deutschland/

[12]https://www.spiegel.de/consent-a-?targetUrl=https%3A%2F%2Fwww.spiegel.de%2Fwissenschaft%2Fmedizin%2Fcoronavirus-infizierte-genesene-tote-alle-live-daten-a-242d71d5-554b-47b6-969a-cd920e8821f1

devoteam