Grafieken en de waarheid

In mijn vorige bericht liet ik zien wat voor een verschil het maakt of je een datareeks een jaar eerder of een jaar later laat beginnen. Het beeld dat je krijgt als je de ene grafiek dan met de andere vergelijkt kan dan soms erg verschillen. Maar beide grafieken kloppen wel. Maar nu heb ik een andere merkwaardige ontdekking aan grafieken gedaan die ik u niet wil onthouden.

Enkele weken geleden correspondeerde ik met Marcel Crok  over een bericht van Pierre Gosselin dat ging over het gebrek aan stijging van de wereldtemperatuur het afgelopen  decennium. In dat bericht stond ook de volgende grafiek:

cet14   Bron: Ed Hoskins, data UK Met Office

Het betreft de gang van CET, Central England Temperature, vanaf 2000, en ook nog opgesplitst in seizoenstemperaturen. Interessante grafiek. Als je naar de lineaire trendlijn van de jaargemiddelden kijkt ( donkergrijze lijn ) dan is er sprake van een duidelijke daling ( y= -0,075x).

Nu heb ik al veel grafieken gemaakt, vaak met behulp van KNMI’s onvolprezen ClimateExplorer, maar ik kon me niet herinneren dat ik bij de Nederlandse temperatuurreeksen vanaf 2000 een zo sterke daling had waargenomen. En dan gaat het over De Bilt en CNT (Centraal Nederlandse Temperatuur). Normaal gesproken zijn de temperatuurreeksen van CET en De Bilt/CNT goed vergelijkbaar, als gevolg van de geografische ligging.

cetaIk ben daarom eens in de cijfers van de CET gedoken, die men ook netjes op de ClimateExplorer kan vinden. CET is de oudste temperatuurreeks ter wereld en begint in 1659 (zie hierboven). Wat een geweldige grafiek vind ik dit! Je kunt zo ‘diep’  in het verleden kijken, hier ga ik me zeker binnenkort eens verder in verdiepen. Maar het ging in het bericht van Gosselin over het laatste stukje, vanaf 2000.

Nu zijn de gegevens van CET maandgemiddelden, en toen ik een grafiek maakte van die maandgemiddelden vanaf januari 2000 t/m december 2012 kwam er dit tevoorschijn:

cet 2000 2012 maandDe lineaire trendlijn is een vrijwel horizontale lijn, zelfs heel licht stijgend (y= 0,0008x). Hoe is dat te rijmen met de grafiek van Gosselin die duidelijk naar beneden raast? Omdat de grafiek van Gosselin gebruik maakt van jaargemiddelden can CET heb ik dat ook gedaan, en zie:

cet 2000 2012 jaarHet resultaat is een duidelijk dalende lineaire trendlijn met y= -0,0151x. En dat terwijl de jaargemiddelden netjes afgeleid zijn uit de maandgemiddelden.Ik was werkelijk verbaasd en brak mijn hoofd over dit verschijnsel: bij gebruik van maandgemiddelden wordt de trendlijn heel licht positief, gebruik je jaargemiddelden dan wordt de trendlijn negatief. Over de verschillen met de grafiek van Gosselin heb ik het later.

Ik ben te rade gegaan bij mijn goede vriend Peer, die zijn halve leven stistiek heeft gedoceerd aan de TuE. Dit is in het kort het verhaal: Als je met tijd werkt wordt die x-as niet korter, alleen wissel je van eenheid, bijvoorbeeld van maanden naar jaren. De X-as wordt dan ook met de tijd korter/langer. Immers, in de schaal van maanden ziet de geobserveerde functie er uit als volgt: f(1)=2,50,  f(2)=4,36, f(3)=4,83, ….., f(144)=4,92 . Van deze functie ga jij de regressielijn bepalen. In de schaal van jaren ziet de geobserveerde functie er uit als volgt: g(1)=10,24, g(2)=10,63, …., g(12)=10,21 . Ook van deze functie bepaal je de regressielijn.

Dus is de x-as gewoon korter geworden. Bovendien koppel je bijvoorbeeld de y-waarde van januari 2012 in het eerste geval aan x-waarde 132, terwijl (een deel van) die waarde in het tweede geval gekoppeld wordt aan x-waarde 12. Dan heb je het over echt verschillende functies.

Tussen beide moet natuurlijk wel een verband bestaan en dat heeft Peer uitgerekend. Deze relatie is tamelijk  ingewikkeld en heeft te maken met de wijze waarop de regressielijn wordt berekend. Hij is het met me eens dat de richting van het verband doorgaans dezelfde behoort te zijn (beide richtingscoëfficiënten positief of beide negatief). Maar er is hier wel sprake van een zeer zwakke relatie: bij de maandgrafiek is RKwadraat 4E-5. Nu geldt: hoe dichter bij 1, des te beter de benadering. De RKwadraat ligt hier bij 0,  bij toetsing totaal niet significant. En dan kan je net over de ‘drempel’ glippen.

Peer heeft de data met een statistisch pakket nog eens doorgerekend en mijn bevindingen blijken te kloppen. Het ligt dus niet aan Excel. Conclusie van Peer: soms is intuïtie geen goede leidraad. Daar ben ik het mee eens, maar een andere conclusie is dat grafieken en trendlijnen je soms ook op het verkeerde been kunnen zetten.

Terug naar de grafiek van Gosseling.  De jaarlijn en de afgeleide trendlijn zien  er toch wel een beetje anders uit dan die ik hierboven met Excel heb gemaakt. Bedrog? Van mij in elk geval niet , dat kan ik u verzekeren. Iedereen kan dat overigens zelf nagaan door de data bij het KNMI op te halen en in Excel te zetten.

Heeft Gosselin dan gesjoemeld? Ik geloof het niet , er zijn wel enkele andere zaken die dat verschil  kunnen verklaren. In de eerste plaats gebruikt Gosselin anomalieën op de y-as, en ik de gemeten gemiddelden. De schaal van de beide y-assen is daardoor verschillend (zie hiervoor). En wat ook nogal aantikt is dat hij de grafiek door laat lopen t/m juni 2013. Herinnert u zich nog deze winter en het daarop volgende voorjaar?  In Engeland was het niet veel beter dan bij ons, dus trekt dat de trendlijn aan het einde naar beneden. Niet doen Pierre, zou ik zeggen, gewoon met hele jaren werken.