Willis Eschenbach verrast mij en veel anderen keer op keer met uitstekende artikelen op WhatsUpWithThat over allerlei klimatologische kwesties. Hier de vertaling van een recent artikel over de beruchte hockeystickgrafiek, die in diverse varianten steeds maar weer opduikt. Willis laat zien waarom dat logisch is. Niet omdat dat hockeystickachtige verloop van de temperatuur van de afgelopen 2000 jaar ‘settled science’ is, maar door de statistische methodiek die gehanteerd wordt.
Gastartikel door Willis Eschenbach (@weschenbach op Ex-Twitter)
De iconische “hockeystick” weigert gewoon te sterven. Hij werd voor het eerst gemaakt door Mann, Bradley en Hughes in hun artikel ‘Global-scale temperature patterns and climate forcing over the past six centuries’ (hierna “MBH98”) uit 1998.
Figuur 1. Originele hockeystickgrafiek
MBH98 beweerde aan te tonen dat na een lange periode met weinig verandering, de wereld plotseling begon op te warmen, en snel ook.
Een paar decennia geleden heeft Steve McIntyre op zijn website Climate Audit een heleboel fouten in MBH98 ontdekt. En ergens in die tijd merkte iemand (waarschijnlijk Steve maar misschien ook niet) op dat de merkwaardige (en wiskundig onjuiste) procedure die in MBH98 werd gebruikt, actief hockeysticks uit rode ruis kon halen.
[UPDATE]: De niet te stoppen Rud Istvan merkte in de comments op dat McIntyre en McKitrick in 2005 ‘Hockey sticks, principal components, and spurious significance’ publiceerden. Ik vind ook Mann, Bradley en Hughes antwoord op die studie, ‘Reply to McIntyre and McKitrick: Proxy-based temperature reconstructions are robust, waarin staat:
“McIntyre and McKitrick’s claim dat de gebruikelijke procedure (6 van het screenen van proxy data (gebruikt in sommige van onze reconstructies) “hockey sticks” genereert is niet onderbouwd in peer-reviewed literatuur en weerspiegelt een onbekendheid met het concept van screening regressie/validatie.”
Dit artikel zal aantonen dat de uitspraak van MBH niet juist is.
Ondanks dat alles werd MBH opgevolgd door verschillende, wat ik noem “hockalikes”, studies die beweerden onafhankelijk een hockeystick te vinden in de historische gegevens en waarvan dus werd beweerd dat ze de originele hockeystick van MBH98 ondersteunden en valideerden.
Natuurlijk werden in deze studies veel van dezelfde fouten herhaald die door McIntyre en anderen aan het licht waren gebracht. Hier is de geldgrafiek uit mijn post Kill It With Fire, waarin de poging van Mann uit 2008 om de hockeystick te rehabiliteren (M2008) werd geanalyseerd.
Figuur 2. Cluster dendrogram met vergelijkbare groepen in de proxies van de M2008 hockalike
Merk op dat de hockeystick-vorm afhankelijk is van slechts een paar groepen proxies.
Wat ik me een paar dagen geleden realiseerde was dat, hoewel ik geloofde dat de MBH98 onjuiste wiskunde hockeysticks uit rode ruis kon halen, ik het zelf nooit had uitgeprobeerd. En belangrijker nog, ik had het nooit geprobeerd met eenvoudiger wiskunde, gewone gemiddelden in plaats van de ongecentreerde principale-componentenmethode van MBH98. Dit artikel is dus eigenlijk mijn laboratoriumnotitieboek van dat onderzoek.
De meest uitgebreide van deze hockalikes hebben betrekking op de PAGES-dataset, die drie incarnaties heeft gehad – PAGES2017, PAGES2019 en PAGES2K. PAGES2K begint in het jaar 1AD en bevat meer dan 600 proxy-records. Hier zijn verschillende temperatuurreconstructies met PAGES2K-gegevens, gedaan door verschillende onderzoeksgroepen, uit een Nature-artikel waarin de bewering wordt gepromoot dat er “Consistente multidecadale variabiliteit is in mondiale temperatuurreconstructies en -simulaties over onze jaartelling“.
Figuur 3. Verschillende historische reconstructies met behulp van de PAGES2K dataset.
Zoals figuur 3 laat zien, is het waar dat verschillende onderzoeken door verschillende teams zeer vergelijkbare hockeystick-vormen hebben opgeleverd. Hoewel dit veel indruk lijkt te maken op wetenschappers, zal dit artikel laten zien waarom dat zowel waar als betekenisloos is.
Om dat te kunnen doen, moeten we eerst de stappen in het proces van het maken van historische temperatuurreconstructies op basis van proxy’s begrijpen. Een “proxy” is een meting van verschillen in een meetbare variabele die verandert met de temperatuur. Over het algemeen geldt bijvoorbeeld dat wanneer het warmer is, zowel bomen als koralen sneller groeien. We kunnen dus de breedte van hun jaarringen analyseren als een proxy voor de omgevingstemperatuur. Andere proxy’s voor de temperatuur zijn isotopen in ijskernen, sedimentsnelheden in meren, speleothems, magnesium/calcium verhoudingen in zeeschelpen en dergelijke.
Het maken van een historische dataset op basis van proxy’s gaat als volgt:
- Verzamel een heleboel proxy’s.
- Verwijder de proxy’s die niet “temperatuurgevoelig” zijn. Temperatuurgevoelige proxy’s kunnen geïdentificeerd worden door te kijken of ze over het algemeen gelijk (of tegen gelijk) lopen met historische temperatuurwaarnemingen (hoge correlatie).
- Ze kunnen positief gecorreleerd zijn (zowel de temperatuur als de proxy stijgen/dalen samen) of negatief gecorreleerd (als de een stijgt, daalt de ander). Beide zijn gevoelig voor de temperatuur en dus nuttig. Dus moeten we de proxy’s met een negatieve correlatie gewoon omdraaien.
- Gebruik een wiskundige methode, eenvoudig of ingewikkeld, om het gemiddelde te nemen van alle of een deelverzameling van de individuele proxy’s.
- Succes verzekerd.
Lijkt een redelijk idee. Zoek temperatuurgevoelige proxy’s en bereken het gemiddelde ervan om het verleden te reconstrueren. Dus … wat is er niet leuk aan? Om te beginnen is hier de beschrijving uit het artikel waarin de PAGES2K dataset wordt aangekondigd, getiteldA global multiproxy database for temperature reconstructions of the Common Era.
“Reproduceerbare klimaatreconstructies van het Gemeenschappelijk Tijdperk (1 CE tot heden) zijn essentieel om de opwarming van het industriële tijdperk in de context van natuurlijke klimaatvariabiliteit te plaatsen.
Hier presenteren we een database van temperatuurgevoelige proxygegevens uit het PAGES2k initiatief. De database verzamelt 692 gegevens van 648 locaties, waaronder alle continentale regio’s en grote oceaanbekkens. De gegevens zijn afkomstig van bomen, ijs, sediment, koralen, speleothems, documentair bewijsmateriaal en andere archieven. Ze variëren in lengte van 50 tot 2000 jaar, met een mediaan van 547 jaar, terwijl de temporele resolutie varieert van tweewekelijks tot honderdjarig. Bijna de helft van de proxy-tijdreeksen is significant gecorreleerd met de HadCRUT4.2 oppervlaktetemperatuur over de periode 1850-2014.”
PAGES2K heeft dus de eerste stap gezet in het maken van een op proxy’s gebaseerde temperatuurreconstructie. Ze hebben een groot aantal proxy’s verzameld en vastgesteld dat ongeveer de helft daarvan “temperatuurgevoelig” is op basis van hun overeenkomst met de HadCRUT oppervlaktetemperatuur.
Om te laten zien wat er niet goed is, heb ik groepen van 692 “pseudoproxy’s” gemaakt die overeenkomen met de grootte van de PAGES2K dataset. Dit zijn willekeurig gegenereerde imitatie “tijdreeksen” die beginnen in jaar 1, vergelijkbaar met de lengte van het PAGES2K. Ik heb ze zo gemaakt dat hun autocorrelatie ongeveer overeenkomt met de autocorrelatie van de temperatuurrecords, die vrij hoog is. Op die manier zijn ze “levensecht” en komen ze goed overeen met de echte temperatuurmetingen. Hier zijn de eerste tien van een willekeurige serie.
Figuur 4. Willekeurig gegenereerde pseudoproxy’s met hoge autocorrelatie, ook wel “rode ruis” genoemd.
Zoals je kunt zien, kunnen ze allemaal redelijkerwijs de temperatuurgeschiedenis van twee millennia van een denkbeeldige planeet weergeven. Hoe goed is hun correlatie met temperatuurwaarnemingen na 1850? Figuur 4 toont die gegevens.
Figuur 5. Correlaties van 692 willekeurige pseudoproxy’s met de Berkeley Earth moderne temperatuurwaarnemingen.
Dit is ongeveer wat we zouden verwachten: ongeveer de helft van de pseudoproxy’s toont een positieve correlatie met de waargenomen temperatuurgegevens, de andere helft heeft een negatieve correlatie en de meeste proxy’s hebben geen sterke correlatie met de temperatuur.
En hier is het gemiddelde van alle pseudoproxy’s:
Figuur 6. Gemiddelde, 692 pseudoproxy’s. De rode lijn toont het begin van de instrumentele gegevens van Berkeley Earth. Merk op dat er geen hockeystick is – integendeel, in dit geval heb ik, om vertekening van mijn resultaten te voorkomen, een reeks pseudoproxy’s gekozen waarvan het gemiddelde daalt aan het recente einde. Er is ook geen significante trend in de totale gegevens.
OK, dus we hebben de proxy’s en we hebben de correlatie berekend van elke proxy met het instrumentele record. Vervolgens heb ik, volgens stap 3 in de hierboven beschreven procedure, de proxy’s met een negatieve correlatie met de instrumentele gegevens omgedraaid (omgekeerd). Dat betekende dat alle proxy’s positief gecorreleerd waren met de gegevens van Berkeley Earth.
Op dit punt was ik van plan om te kijken hoe een gemiddelde eruit zou zien als ik alleen de pseudoproxy’s zou selecteren met een hoge correlatie met het instrumentele record, zeg 0,5 of meer … maar eerst dacht ik, zonder speciale reden, om te kijken naar een simpel gemiddelde van de hele dataset nadat ik de negatief gecorreleerde pseudoproxy’s had omgekeerd. Ik was stomverbaasd.
Figuur 7. Gemiddelde van alle pseudoproxy’s na simpelweg omkeren (inverteren) van degenen met een negatieve correlatie met de instrumentele gegevens.
Hier zien we waarom alle verschillende middelingsmethoden hetzelfde “historisch record” opleveren … omdat de hierboven genoemde procedure actief zoekt naar hockeysticks in willekeurige rode ruis.
Merk op dat het niet nodig is om de pseudoproxy’s die een negatieve correlatie met de temperatuur hebben om te draaien (inverteren). We kunnen hetzelfde hockeystick-resultaat krijgen door simpelweg alle negatief gecorreleerde proxy’s weg te gooien.
Een interessant detail van figuur 7 is dat er een scherpe daling is in het gemiddelde voor het begin van de periode die gebruikt wordt voor de correlatie. Ik neem aan dat dit komt doordat je voor zo’n grote stijging eerst naar een laag punt moet gaan.
En deze daling in het gemiddelde vanaf 1775 is interessant omdat je die kunt zien in zowel Paneel A als Paneel B van de PAGES2K reconstructies in Figuur 3 hierboven. Dezelfde daling na 1775 is ook zichtbaar in de MBH hockeystick in Figuur 1, hoewel deze horizontaal wordt uitgerekt door de verschillende tijdschalen van de MBH en PAGES2K grafieken.
Een ander punt van aandacht is dat de procedure een licht dalende trend heeft geïntroduceerd vanaf het begin tot een scherpe daling rond 1775. Ik wijt dat aan het feit dat de procedure de voorkeur geeft aan “U”-vormige datasets, maar dat ben ik maar.
In elk geval is de licht neerwaartse trend een echt effect van de procedure. Dat weten we omdat er geen neerwaartse trend is in de volledige dataset. We weten ook dat het een echt effect is om een tweede reden: we zien dezelfde licht neerwaartse trend in de originele MBH Hockeystick in Fig.1, en ook in Panel “a” van Figuur 2.
Tot slot, waarom is er zo weinig variatie in het “handvat” van de hockeystick? Zijn de temperaturen in het verleden echt zo stabiel?
Nee. Het is een ander artefact. Het handvat van de hockeystick is gewoon een gemiddelde van een vermoedelijk groot aantal willekeurige datasets met rode ruis. Als je het gemiddelde neemt van een aantal willekeurige datasets met rode ruis, krijg je een rechte lijn.
Mijn volgende gedachte was: hoeveel moet ik de pseudoproxies verstoren om een zichtbare hockeystick te krijgen?
Om dat te onderzoeken nam ik dezelfde originele dataset. In dit geval heb ik echter slechts 40 proxy’s omgekeerd, de proxy’s met de grootste negatieve correlatie. Ik heb dus alleen de sterkste negatieve signalen omgedraaid en de rest van de proxy’s met negatieve correlatie als onaangeroerde rode ruis achtergelaten. Dit is het resultaat.
Figuur 8. Gemiddelde van alle pseudoproxy’s na het omdraaien van de pseudoproxy’s met de top veertig van negatieve correlatie met de instrumentele data.
Merk op dat minder dan zes procent (veertig) van de pseudoproxy’s werden omgedraaid, en dat alle vier hockeystick-kenmerken al zichtbaar zijn: een recht handvat, een licht dalende trend tot 1775, een scherpe daling tot 1850, en een bijna verticale hockeystick “blade” vanaf 1850.
Hoe zit het aan de andere kant, waar we alleen die met de sterkste correlatie selecteren? Hier is het gemiddelde van alleen het bovenste kwart van de gegevens (176 pseudoproxy’s) zoals gemeten aan de hand van hun correlatie met de waargenomen temperatuur.
Figuur 9. Gemiddelde van alleen het bovenste kwart van de gegevens, die met de beste correlatie met de gegevens van Berkeley Earth.
Hetzelfde. Rechte handgreep op de hockeystick. Langzame daling tot 1775. Scherpe daling. Verticaal hockeystickblad daarna.
Uiteindelijk, na er een nachtje over te hebben geslapen, realiseerde ik me dat ik naar de best-case scenario’s had gekeken … maar hoe zit het met de worst-case? Dus hier is de helft van de pseudoproxy’s met de slechtste correlatie met de waargenomen temperatuur.
Figuur 10. Gemiddelde van alleen de onderste helft van de gegevens, die met de slechtste correlatie met Berkeley Earth gegevens.
Ondanks het gebruik van alleen de helft van de pseudoproxy’s met de slechtste correlatie met temperaturen, die met een correlatie van 0,22 of minder, krijgen we hetzelfde verhaal als eerder – dezelfde rechte hockeystickgreep, dezelfde lichte daling tot 1775, dezelfde scherpe daling tot 1850, en hetzelfde verticale hockeystickblad na 1850.
Nu is er een interessant en gemakkelijk te missen punt in de bovenstaande grafieken. Terwijl de vorm hetzelfde blijft: hoe groter de correlatie, hoe hoger het blad van de hockeystick. De verschillende procedures veranderden de punt van het blad van ~0,1 met slechts 40 omgedraaid, tot ~1,5 met de slechtst gecorreleerde pseudoproxies, tot ~0,3 met alle pseudoproxies omgedraaid, tot ongeveer ~0,7 met alleen de best gecorreleerde. Ze vertoonden dus allemaal dezelfde “hockeystick” vorm, en ze verschilden alleen in de grootte van het blad. Merkwaardig.
Ik heb hierboven gezegd dat deze post zou laten zien waarom het zowel waar als betekenisloos is dat verschillende studies allemaal hockeysticks opleveren. En ik zei hierboven dat ik zou laten zien dat de bewering van MBH fout was, waar ze zeiden dat het idee dat de procedure “hockeysticks genereert” “ongefundeerd” is.
De reden is heel duidelijk in de figuren hierboven te zien. Het maakt niet uit wat de onderzoekers doen, aangezien ze allemaal een variatie gebruiken van de standaardprocedure die ik bovenaan de post heb opgesomd, krijgen ze gegarandeerd een hockeystick. Daar ontkom je niet aan. Die procedure haalt absoluut en zeer effectief hockeysticks uit willekeurige rode ruis.