Schatten van het werkelijk aantal COVID-19 infecties: Wat zit er achter de officiële aantallen?

21 apr 2020

Misschien ben je zoals ik en volg je ook elke dag de cijfers van het aantal corona infecties en zie je deze razendsnel stijgen: 1.000.000 gevallen wereldwijd begin april, en slechts 2 weken later al over 2.000.000. Maar over één zaak zijn we het allemaal eens: dit aantal is niet correct. Het geeft enkel weer hoeveel mensen positief getest zijn, wat ons leidt tot de vraag: hoeveel gevallen zijn er echt?

In dit artikel zullen we samen nagaan hoe we met de beschikbare data over het coronavirus een schatting kunnen maken van diagnose-efficiëntie van elk land. Het resultaat hiervan zal een grote verschil tonen, wat gelinkt kan worden aan politieke beslissingen, gezondheidszorg of de testcapaciteit in elk land. We zullen ook zien dat verschillende landen met vergelijkbare politiek gelijkaardige cijfers voorleggen.

In dit artikel willen we op een verstaanbare wijze uitleggen hoe logisch nadenken en data-analyse hand in hand gaan om inzichten te verwerven vanuit de ruwe data. De hier getoonde cijfers mogen desalnietemin als de waarheid worden beschouwd aangezien deze gebaseerd zijn op een aantal veronderstellingen.

 

Hoe kunnen we nu de ontbrekende gegevens reconstrueren? 

Het begint met deze twee hypotheses:

  • Het aantal doden is correcter dan het aantal infecties
  • Het sterftecijfer van het virus zou niet sterk mogen verschillen van land tot land

Er zijn uiteraard verschillende factoren die het sterftecijfer toch beïnvloeden, zoals de leeftijdspyramide van het land, de levensstijl, de kwaliteit van de gezondheidszorg… maar het is onwaarschijnlijk dat deze factoren een grotere impact hebben dan een factor 2 of 3 (gaande van 2% in Zuid-Korea, tot misschien 4 of 6% in sommige andere landen?).

Hoe dan ook, we zien zelfs landen met een sterftecijfer van meer dan 30% … 15 keer hoger dan Zuid-Korea! Wat kan hier de reden zijn? Dit is nu net wat we zullen onderzoeken, maar laten we eerst nagaan hoe we het waargenomen sterftecijfer accuraat kunnen berekenen:

 

Vertraging tussen besmetting en dood

Om het sterftecijfer nauwkeuriger te meten moeten we de sterfte toekennen op de dag van de diagnose. De tijd tussen de diagnose en de sterfte in combinatie met de exponentiële groei van het aantal besmettingen resulteert immers in een sterftecijfer dat niet constant is in de tijd en die een onderschatting is van de realiteit :

Figuur 1: Aantal besmettingen, aantal geregistreerde overlijdens en sterftecijfer for België, zoals door de WHO gerapporteerd.

 

Omdat we de tijd tussen het stellen van de diagnose en het overlijden niet kennen per patiënt, zullen we een gemiddelde gebruiken om de curve te verschuiven in de tijd. Dit gemiddelde kan verschillen per land, afhankelijk van de test capaciteiten en van de kwaliteit en beschikbaarheid van de gezondheidszorg.

Figuur2: Vertraging tussen de diagnose en het overlijden voor Italië en Zwitserland.

 

Bij de landen die het meest geïmpacteerd zijn door het virus observeren we vertragingen tussen de 7 en 11 dagen. Daarom kiezen we ervoor om een gemiddelde van 9 dagen te gebruiken om het sterftecijfer te corrigeren.

Figuur 3:Aantal besmettingen, aantal geregistreerde overlijdens en sterftecijfer voor België waarbij het overlijden
bepaald is 9 dagen eerder dan het gerapporteerde overlijden door de WHO.

 

Zonder deze tijdscorrectie constateerden we een schijnbaar sterftecijfer voor België gaande van 5% tot 10% tussen 31 maart en 9 april. Na correctie van de tijd lijkt deze nu constant gedurende deze periode, namelijk 20%.

Het echte sterfecijfer is echter niet 20% van het aantal besmette personen aangezien niet iedereen getest is. Dit schijnbaar hoog sterftecijfer komt door de heel lage testcapaciteit in België, waar de meeste testen uitgevoerd worden bij mensen die gehospitaliseerd worden. Ook worden in België de vermoedelijke overlijdens door COVID-19 in de woon- en zorgcentra meegeteld, wat uiteraard in een hoger sterftecijfer resulteert.

 

Een kantekening bij Zuid-Korea

Laten we nu eens de strategie van Zuid Korea in de bestrijding van het virus onder de loep nemen. Het sterftecijfer is één van de laagste van alle landen, slechts 2%. Hoe komt dit?

Zuid-Korea heeft heel hard ingezet op testen en op het gebruik van apps op de mobiele telefoon van zijn inwoners om hun verplaatsingen te tracken. Dit betekent dat van zodra een positief geval is gedetecteerd, de overheid razendsnel iedereen kan identificeren die de besmette persoon gekruist heeft en hen waarschuwen om zichzelf in isolatie te zetten en te laten testen. Zo kon Zuid-Korea het virus onder controle houden zonder een lockdown, wat resulteerde in lagere sterfte en minder economische schade. En alhoewel er nooit 100% van de mensen getest is, kunnen we toch veronderstellen dat deze strategie geholpen heeft om een hoog aantal besmettingen te identificeren, waarschijnlijk tegen de 100%.

 

Hoe kunnen we de diagnose-efficiëntie per land gaan bepalen?

Met alles wat we zojuist hebben gezien, kunnen we aannames maken en extrapoleren welk percentage van de besmette personen daadwerkelijk de diagnose krijgt. De 2 aannames zijn:

  1. Het reële sterftecijfer verschilt niet significant per land
  2. De vertraging tussen de diagnose en het overlijden is gemiddeld 9 dagen
  3. Zuid-Korea telt bijna 100% diagnoses.

 

Op basis van het waargenomen sterftecijfer en de drie bovenstaande aannames kunnen we het werkelijk aantal gevallen per land schatten en welk percentage van de reële gevallen gediagnosticeerd zijn. De resultaten worden weergegeven in de onderstaande grafiek:

 

 

We observeren fluctuaties en evoluties in de tijd:

  • Om terug te keren naar het voorbeeld van België. Het diagnosepercentage lag in het begin van de crisis rond de 40%. Met het toenemende aantal gevallen slaagde het land er echter niet in om zijn testcapaciteiten op te schalen en liep het heel wat gevallen mis. We schatten dat nu slechts 9% van de besmettingen wordt gediagnosticeerd. Dit cijfer is vergelijkbaar met veel andere landen die ook de beslissing hebben genomen om alleen te testen bij ziekenhuisopname (Frankrijk, Italië, Spanje, Nederland, …)
  • Laten we ook een ander voorbeeld bekijken: midden maart besloot Luxemburg de testen uit te breiden tot iedereen die wil getest worden. We merken duidelijk dat dankzij deze maatregelen de diagnose-efficiëntie toegenomen is.
  • Ten slotte zien we bij enkele landen een diagnosepercentage van meer dan 100%. Dit zou kunnen betekenen dat Zuid-Korea niet de juiste maatstaf was en dat deze landen werkelijk betere diagnoseresultaten bereiken. Er zijn echter geen sterke aanwijzingen dat ze betere diagnosemethoden toepassen. Dit wijst er waarschijnlijk op dat deze landen niet alle overlijdens tellen (we laten het over aan de lezer om te beslissen of dit met opzet gedaan is of simpelweg door gebrek aan middelen).

We zijn er dus in geslaagd om data te linken met gebeurtenissen, en de situatie te begrijpen. Deze manier van redeneren kan toegepast worden in heel wat domeinen (politiek, openbare gezondheid, economie, … of de prestaties van uw bedrijf) en biedt inzichten die kunnen helpen bij het nemen van beslissingen.

Hou er ook rekening mee dat, alhoewel de hier getoonde trends geldig zijn, vanwege het grote aantal onbekenden in verband met COVID-19, de cijfers slechts ruwe benaderingen zijn en nergens buiten de context mogen worden herbruikt.