De homogenisatie van GHCN in Europa

Men kan een waarnemingsreeks, zoals een temperatuurreeks, homogeniseren als er veranderingen in waarneemomstandigheden hebben plaatsgevonden die een sprong of trendbreuk veroorzaken die niet klimatologisch van aard is. Te denken valt aan verplaatsingen van de stations en/of instrumenten, langzaam of abrupte veranderingen in de omgeving en veranderingen in instrumenten, meethutten en meetmethoden. Die zogenaamde inhomogeniteiten kunnen dan zo groot worden dat een meetreeks zonder verdere correcties ongeschikt is voor klimaatonderzoek.

Voor onderzoek naar klimaatverandering is het dan belangrijk is om deze inhomogeniteiten te corrigeren.  In de praktijk betekent dit dat men dat deel van de meetreeks dat inhomogeniteiten bevat homogeniseert. Die homogenisatie komt meestal neer op een wijziging van de meetgegevens met behulp van statistische technieken.

De temperatuurreeksen van GHCN worden regelmatig gehomogeniseerd. De maandelijkse station temperatuurgegevens van het Global Historical Climatology Network (GHCN) worden beschikbaar gesteld door NOAA. GHCN is een van de meest gebruikte bronnen ter wereld. De databank bevat gegevens van meer dan 100.000 stations in 180 landen. Momenteel is versie 4 actueel.

De GHCN datasets zijn beschikbaar in twee formaten: niet-gehomogeniseerd en gehomogeniseerd. Sinds 2011 wordt de gehomogeniseerde dataset buiten de USA bijna dagelijks bijgewerkt door toepassing van het “Pairwise Homogenization Algorithm” (PHA) toe te passen op de niet-gehomogeniseerde datasets. Eerdere studies hebben aangetoond dat de PHA goed kan presteren bij het corrigeren van synthetische tijdreeksen wanneer bepaalde kunstmatige vertekeningen worden geïntroduceerd. De prestaties met reële gegevens zijn minder goed bestudeerd. Maar daar is nu verandering in gekomen.

O’Neill et al (2021) hebben onlangs een publicatie het daglicht laten zien met als centrale vraag hoe goed die PHA zijn werk doet bij het homogeniseren van Europese temperatuurreeksen. Ik heb aan dat onderzoek ook een bescheiden bijdrage mogen leveren.

Fig. 1     Bron: O’Neill et al 2021

Eerdere studies hebben aangetoond dat de PHA goed kan presteren bij het corrigeren van synthetische tijdreeksen wanneer bepaalde kunstmatige sprongen werden geïntroduceerd. De prestaties met reële gegevens zijn minder goed bestudeerd. Daarom zijn de gehomogeniseerde GHCN datasets (versie 3 en 4) bijna dagelijks gedownload over een periode van 10 jaar (2011-2021), wat resulteerde in 3689 verschillende updates van de datasets. De verschillende geïdentificeerde breekpunten werden geanalyseerd voor een set van stations uit 24 Europese landen waarvoor metagegevens over de stationsgeschiedenis beschikbaar waren. Figuur 1 links toont in rood de 259 Europese stations in versie 3 waarvoor metadata beschikbaar waren. Figuur 1 rechts in rood de 847 stations met metadata in versie 4.

De onderzoekers vergeleken de breekpunten zoals die door het algoritme waren geïdentificeerd met de breekpunten in de aangeleverde metadata. Een opmerkelijke inconsistentie in de geïdentificeerde breekpunten (en dus toegepaste aanpassingen) kwam hierbij aan het licht. Slechts 19% van de breekpunten (18% voor versie 3) werd in verband gebracht met een gedocumenteerde gebeurtenis binnen 1 jaar, en 67% (69% voor versie 3) werd niet in verband gebracht met een gedocumenteerde gebeurtenis (zie figuur 2).

Fig.2    Bron: O’Neill et al 2021

Hoewel het PHA dus een nuttig instrument blijft in de homogenisatie-gereedschapskist van de klimaatgemeenschap, zijn veel van de PHA-aanpassingen die zijn toegepast op de gehomogeniseerde GHCN-datasets van Europa mogelijk dus niet correct geweest. Na onze publicatie over de homogenisatie van de 5 hoofdstations van het KNMI Is dit alweer een bewijs dat homogenisaties – als men ze al nodig acht- alleen met de grootst mogelijke voorzichtigheid moeten worden toegepast.