De ‘false positive’’ kwestie

Er zijn vele parallellen te ontdekken tussen klimaatproblematiek en coronaproblematiek. Eén daarvan is het gebruik van data in grafieken en kaartjes. In dit bericht gaat het over een noodzakelijke correctie op de uitslagen van de tests die door de GGD worden afgenomen.

De PCR test die gehanteerd wordt in de GGD teststations door slijmafname met behulp van wattenstaafjes is geen zogenaamde gold standard test. Zo’n gold standard test is de beste in zijn soort met de minste afwijkingen. Maar elke test bevat afwijkingen, 100% waterdichte tests bestaan niet. Die afwijkingen kunnen false negative uitslagen veroorzaken (de uitslag is negatief terwijl de persoon positief getest had moeten zijn) en false positive (uitslag is positief terwijl die negatief had moeten zijn). Die afwijkingen worden veroorzaakt door eigenschappen van de testmethode zelf, maar kunnen ook veroorzaakt worden door externe factoren zoals een besmet wattenstaafje, kruisbesmetting van monsters, kruisreacties met andere virussen et cetera. Dergelijke zaken zijn nooit helemaal te vermijden.

Surkova et al hebben op 29 september j.l. in The Lancet een paper gepresenteerd over de gevolgen van false positives zowel voor individuen als de globale effecten. En die effecten zijn niet gering. Over die effecten ga ik het nu niet hebben, maar wel over de vraag of de cijfers en grafieken van het RIVM van de oplopende aantallen positief geteste personen in de GGD stations correct zijn. Het is namelijk van groot belang dat de cijfers van positief geteste personen gecorrigeerd worden voor false positive uitslagen. Het lijkt er op dat dat niet gebeurt.

In het Verenigd Koninkrijk is een schatting gedaan van de false positive rate van de nationale COVID-19-testprogramma’s door gegevens te onderzoeken van gepubliceerde externe kwaliteitsbeoordelingen (EQA’s) voor PCR-testen voor andere RNA-virussen die tussen 2004 en 2019 zijn uitgevoerd. De resultaten van 43 EQA’s werden onderzocht, wat een mediane false positive rate opleverde van 2,3% en een interkwartielafstand 0,8-4,0% (Mayers et al 2020).

Dat lijkt weinig, maar vanwege het feit dat de prevalentie van het virus laag is kunnen de cijfermatige gevolgen heel groot zijn en heeft dat onmiddellijk invloed op de voorspellende waarde van de PCR test. Prevalentie is de mate van voorkomen van een ziekte in de totale populatie. Die is zowel in  het VK als Nederland vanaf de zomer relatief laag. Zo waren de positieve testuitslagen in de GGD stations in week 38 6,1%, dus 93,9% testte negatief.

Laten we als voorbeeld de mediaan van de geschatte false positive rate nemen, 2,3%, en dat er op een dag 100.000 mensen getest zijn. We nemen in het voorbeeld het percentage positief geteste personen in Nederland in week 38, 6,1%. Dat betekent dat in ons voorbeeld die dag 6100 personen positief getest zijn. Nu gaan we dat getal corrigeren voor de false positive rate van 2,3%. Sommigen menen dat die 2,3% betekent dat van de positieve testuitslagen er 2,3% false zijn, maar dat is onjuist. Het betekent dat van het totaal aantal geteste personen in die periode 2,3% ten onrechte positief getest is. Dus 2,3% van 100.000 is 2300 personen foutief positief getest is. Dus het echte cijfer van positief geteste personen is 6100 – 2300 = 3800. Corrigeren voor false positives kan dus zéér invloed hebben op de cijfers.

In het VK is de discussie hierover al enkele dagen hoog opgelopen. Dr Mike Yeadon was werkzaam in diverse farmaceutische bedrijven en heeft over het ontbreken van een correctie voor false positives een duidelijk betoog geschreven. Hij schrijft o.a. : “It is when the amount of disease, its so-called prevalence, is low that any amount of a false positive rate can be a major problem. This problem can be so severe that unless changes are made, the test is hopelessly unsuitable to the job asked of it. In this case, the test in Pillar 2 was and remains charged with the job of identifying people with the virus, yet as I will show, it is unable to do so.

Pillar2 is vergelijkbaar met de grootschalige tests in onze GGD stations. Yeadon verwijst ook naar een artikel in The Spectator van de hand van Carl Heneghan, professor aan Oxford University met als titel “How many Covid diagnoses are false positive”. Heneghan is directeur van het Centre for Evidence-Based Medicine in Oxford en een gerespecteerde wetenschapper. Hij wijst ook op de grote invloed van false positives op de cijfers.

Fig. 1  Bron:  University of Oxford

Prof. Carl Henneghan schetst in een voorbeeld de onnauwkeurigheid van de tests.  Schattingen suggereren dat ongeveer 80% van de geïnfecteerde mensen in het V.K. een positieve test (sensitivity) zal hebben. De specificity (het % mensen dat negatief test, uit de populatie die negatief had moeten testen ) loopt op tot 99,9% voor degenen die negatief testen. Laten we er eens van uit gaan dat 1 op de 1.000 mensen het virus heeft, dus 0,1%. Als 10.000 willekeurige mensen getest worden met het infectieniveau van 0,1% dan zullen slechts 10 mensen corona hebben en 9.990 niet. Van die 10 test 80% positief (sensitivity), dus voor 8 mensen klopt de testuitslag, voor 2 niet. Van de 9990 niet-geïnfecteerden zullen op 10 na alle correct als negatief worden gediagnosticeerd  (specifity van 99,9%) . Die 10 zullen te horen krijgen dat ze  corona hebben terwijl dat in feite niet het geval is. Dat levert dus in totaal 18 positieve tests op: 8 mensen die echt het virus hadden en 10 die dat niet hadden. Dus slechts 8 van de 18 (= 44%) van de geclaimde infecties zijn reëel, de overige niet.

Dat de betrouwbaarheidsmarges van de gebruikte test erg ruim zijn werd ook aangetoond in een publicatie van Lee (2020) : de huidige Amerikaanse CDC testkits kunnen -zelfs in hun beste laboratoria- tot 30% false positives  genereren en 20% false negatives. Onder slechtere omstandigheden, zoals in arme landen, kunnen de percentages nog veel hoger zijn. Het CNC in de USA moest in maart 2020 testkits terugnemen, toen werd aangetoond dat ze een hoog aantal false positives gaven als gevolg van een reagensverontreiniging (zie hier).

Fig. 2  Bron: RIVM

Figuur 2 toont het aantal positief geteste personen per etmaal als percentage van het totaal aantal geteste personen per etmaal. Ik heb al eerder aangegeven dat dit feitelijk twee verschillende grafieken zijn. Toen er nog geen grootschalig bevolkingsonderzoek door de GGD opgestart was (1 juni) waren het de ziekenhuisdata die gebruikt werden. Ongetwijfeld was de verhouding  positief geteste personen tegen het totaal aantal geteste personen daardoor in de eerste periode anders dan in de periode van de GGD-stations, waar meer dan 90% van de geteste personen niet positief was.

Fig. 3  Data: RIVM Bron: openinfo.nl

Figuur 3 toont het aantal positieve tests per week (blauw).  Hier is duidelijk te zien wat er gebeurt als je alleen het aantal positief geteste personen bekijkt en geen rekening houdt met het totaal aantal geteste personen in een week. Op deze wijze presenteert het RIVM óók het aantal  ‘gemelde patiënten’ (lees: positief geteste personen) vanaf 27 februari per dag:

Fig. 4  Bron: RIVM

Dat levert echter een sterk vertekend beeld op, want het aantal personen dat zich in de beginfase liet testen was vele malen kleiner dan de afgelopen paar maanden. Bovendien was in de eerste maanden geen sprake van het ‘vrij’  laten testen: men moest corona-symptomen vertonen.  Dit zijn de cijfers van het aantal geteste personen per week:

Fig. 5    Data: RIVM  Bron: Bron: openinfo.nl

Houd je rekening met het feit dat het aantal geteste personen niet altijd gelijk is maar in de tijd flink oploopt dan ziet de grafiek er zo uit:

Fig. 6  Data: RIVM Bron: openinfo.nl

Figuur 6 toont het aantal positief geteste personen (blauw) als percentage van het totaal aantal geteste personen per week. Zo zou de RIVM-grafiek er volgens mij uit moeten zien.

De rode streepjeslijn toont de voor false positive gecorrigeerde percentages voor een false positive rate  van 2,3%, de mediaan fpr zoals hiervoor beschreven. Kijken we alleen naar de cijfers vanaf week 25 dan is te zien dat deze veel lager liggen dan de niet gecorrigeerde positieve uitslagpercentages. In 9 van de 15 weken zijn er zelfs geen positieve resultaten doordat het percentage false positives gróter was dan het percentage niet gecorrigeerde positieve testresultaten.

Fig. 7 Data: RIVM Bron: openinfo.nl

Gebruiken we de fpr van het eerste kwartiel (0,8%) en het derde kwartiel (4%) dan is het resultaat zoals in figuur 7 te zien is. Delen van de gecorrigeerde lijnen verdwijnen onder de y=0 lijn in weken dat de false positive cijfers groter zijn dan de niet gecorrigeerde cijfers. Voor de periode vanaf week 25 (15 juni) zijn voor een fpr van 0,8%  in 3 van de 15 weken de false positive cijfers groter dan de niet gecorrigeerde cijfers, voor een fpr van 4% zelfs in 13 van de 15 weken.

Het is dus van belang om te weten hoe hoog de false positive rate is in elke gemeten periode en dan de positieve testuitslagen te corrigeren voor die false positives. Ik heb echter nog nergens gelezen wat de geschatte fpr voor Nederland is. Uit de cijfers die het RIVM publiceert maak ik op dat er géén correctie plaatsvindt voor false positives. Ik heb daarom het RIVM aangeschreven met de vraag of ze kunnen bevestigen dat er door hen niet gecorrigeerd is voor false positives, en tevens gevraagd of ze me de false positive rate kunnen sturen.

Afgezien van bovengeschetste onzekerheden zijn er -zoals bekend- nog enkele andere. Zo test de PCR op de aanwezigheid van stukjes specifiek virus. Overgebleven stukjes van een besmetting door het SARS virus of het MERS virus, familie van SARS-CoV-2, die jaren geleden rondwaarden en niet meer actief zijn, kunnen wel een positieve uitslag geven. Als iemand dus positief test betekent dat nog niet dat de deeltjes van het SARS-CoV-2 virus afkomstig zijn. En een positieve test betekent óók niet dat de betreffende persoon ziek is en ook niet dat die persoon ‘dus’ besmettelijk is, ook al zijn de aangetroffen deeltjes van het SARS-CoV-2 virus. Voor het antwoord op die vragen zijn andere tests en onderzoeken nodig.

Fig. 8  Bron: RIVM

Het aantal ziekenhuisopnames (test + klinisch onderzoek) is een cijfer dat niet geheel betrouwbaar is. Zo zal bij een deel van de corona-patiënten om diverse redenen niet gekozen worden voor ziekenhuisopname. Het aantal ziekenhuisopnames in een bepaalde periode is dus afhankelijk van keuzes die gemaakt worden. Het betrouwbaarste is volgens mij daarom het aantal sterfgevallen waarbij corona een rol speelt. Figuur 8 toont die sterftegetallen vanaf 27 februari t/m 29 september, het is een bekende grafiek voor mensen die deze site regelmatig bezoeken.

Figuur 9 hieronder geeft een uitstekend beeld van de spreiding in tijd en ruimte van de corona-gerelateerde sterfgevallen. Vanaf 29 februari t/m 29 september 2020 toont de figuur de tweewekelijkse sterftecijfers per 100.000 inwoners per gemeente.  Van de 41 gekleurde gemeenten in het laatste kaartje van 16 t/m 29 september zijn er 29 gemeenten met 1 sterfgeval per 100.000 inwoners, 5 met 2 sterfgevallen, 2 met 3 sterfgevallen, 4 met 4 sterfgevallen, 2 met 5 sterfgevallen en 1 gemeente (Den Haag met 12 sterfgevallen per 100.000 inwoners. Klik op de figuur om hem te vergroten. Zowel de grafiek in figuur 8 als de kaartjes van figuur 9 geven mijns inziens een uitstekend beeld van de corona-situatie in Nederland t/m 29 september.

Fig. 9  Bron: RIVM