- Björn Schwentker - https://www.demografie-blog.de -

Die Untoten von ZEIT ONLINE

ZEIT ONLINE [1] wartet heute mit einer interaktiven Grafik zur Bevölkerungsstruktur bis ins Jahr 2060 auf, die einfach toll aussieht. Look & Feel sind super, man kann sein Geburtsdatum eingeben, mit einem handlichen Schieber das Jahr einstellen, und dann ablesen, wie hoch die eigene Lebenserwartung ist. Gleichzeitig bevölkern kleine bunte Männchen und Weibchen den Bildschirm, und zwar so aufgestellt wie die Bevölkerungsstruktur im gewählten Jahr. Mittendrin findet man sich selbst als Mitbürger in schickem Rot. Sehr schöne Idee und wirklich sehr hübsch. Nur leider stimmen die Daten dahinter nicht: Die lustigen Figuren ordnen sich nach einem anderen Datensatz an als in der Quelle angegeben, sie sterben einen ungewöhnlich frühen Tod und haben nicht die real an der Bevölkerung gemessenen Lebenserwartungen.

Liebe Kollegen bei ZEIT ONLINE, ich bin mir sicher: Ihr nehmt meine Kritik sportlich. Es sind drei Punkte, die am ZEIT ONLINE-Tool falsch oder zumindest skurril sind (Stand 22.02.2012, 20 Uhr). Ich gehe hier jetzt genauer auf jeden einzeln ein, weil ich das Gefühl habe, dass diese interaktive Grafik symptomatisch ist für ein großes Missverständnis im gerade aufkeimenden Datenjournalismus: Nämlich dass es mit einer schönen Grafik getan wäre. Dass eine gelungene interaktive Visualisierung, die sich schnell twittern lässt, guter Datenjournalismus wären. Dem ist nicht so, leider manchmal im Gegenteil.

Auch Datenjournalismus ist Journalismus! Das heißt: Was wirklich zählt, ist nicht das schöne Äußere einer (Daten-)Story, sondern die Recherche dahinter. Und Recherche im Datenjournalismus bedeutet, die Daten genau zu verstehen, die man benutzt. Ihre Bedeutung zu erkennen, Quellenkritik zu betreiben, und wenn nötig, dem User (früher: Leser) zu erklären, worin er da gerade herumklickt. In den Medien scheint es mir neuerdings einen Trend zu geben, dass schnell und viel visualisiert wird – besonders gerne interaktiv -, echte Recherche der Daten aber nicht oder nur unzureichend stattfindet. Damit führt Datenvisualisierung zu einem Rückschritt im Journalismus. Und nicht zu einem Fortschritt, wie es eigentlich sein sollte. Meistens merkt’s keiner. Der User erkennt ja schließlich am fertigen Tool nicht, wenn hintendran etwas nicht stimmt.

Was stimmt in diesem Fall hintendran nicht?

1. Falsche Prognose-Variante verwendet

ZEIT ONLINE gibt an, für die Online-Grafik Daten aus der 12. Bevölkerungsvorausberechnung des Statistischen Bundesamtes zu verwenden, und zwar aus der Variante „2-W2“. Gute Idee! Diese Variante hat realistischerweise eine hohe Lebenserwartung und einen hohen Netto-Einwanderungssaldo von +200.000 pro Jahr. Nur leider nutzt der ZEIT ONLINE-Rechner gar nicht wirklich die Variante 2-W2. Im Google Docs Spreadsheet [2], in dem die Redaktion ihre Daten online gestellt hat, findet man stattdessen die Daten der Variante „2-W1“. Für sie ist die Lebenserwartung zwar hoch, die Nettoeinwanderung aber nur bei +100.000 pro Jahr.

Nur eine Kleinigkeit? Nein: Im Jahr 2060 macht das für die Gesamtbevölkerung einen Unterschied von 72.439.000 – 66.919.000 = 5.520.000 Menschen. Die Anzahl der Kinder, Erwachsenen und Alten in den einzelnen Altersgruppen stimmt entsprechend auch nicht:

Bevölkerungsstruktur auf ZEIT ONLINE und tatsächliche Variante 2-W2

Vergleich der Bevoelkerungsstruktur auf ZEIT ONLINE mit der tatsäclichen Prognose-Variante 2-W2

Die Bevölkerung der auf ZEIT ONLINE zu sehenden Männchen (blau, entspricht Variante 2-W1) ist um einiges kleiner als die der tatsächlichen Prognose-Variante, die in der Quelle angegeben wird (rot, entspricht Variante 2-W2).
Quelle: Statistisches Bundesamt, Daten auf Google Docs [3]

Man würde den Online-Redakteuren gerne unterstellen, dass sie sich bei ihrer Quellenangabe nur vertippt haben. Aber an der genaueren Beschreibung der verwendeten Variante („Jährlicher Ein- und Auswanderungssaldo: + 200 000 Personen jährlich ab 2020“), wird klar, dass man tatsächlich mit dem hohen Wanderungsszenario rechnen wollte, es aber einfach nicht getan hat. Dabei geht es nicht darum, dass einzelne Zahlen vertauscht wurden, sondern gleich der ganze Datensatz.

Update 23.02.2012, 13:04 Uhr: Inzwischen hat ZEIT ONLINE die Angaben zu den Daten geändert und die Variante „2-W1“ ausgewiesen. Dazu wurde ein Korrekturhinweis angebracht, der auf den ursprünglichen Fehler hinweist. Sauber!

2. Das frühe Versterben der Zeit-Männchen

Ich war ziemlich baff, als ich mit dem Schieber herumspielte, ihn sachte in Richtung Zukunft schob, und plötzlich mein Männlein verschwand. Es war einfach weg, verstorben. Das ist extrem bedauerlich, denn ich hatte den Jahrgang meines Vaters eingegeben, 1942. Er feiert dieses Jahr seinen 70. Geburtstag. Zu meinem Schrecken hält er auf ZEIT ONLINE danach nur noch bis 2024 durch. Ruckle ich den Jahres-Schieber nur ein Jahr weiter, ist sein Figürchen plötzlich weg. Papa tot.

Plötzlich ist Papa weg

Screenshot von ZEIT ONLINE, auf dem mein Vater, Jahrgang 1942, im Alter von 85 leider plötzlich verstorben ist.

Wie Sie sehen, sehen Sie nichts: Eigentlich sollte mein Vater, Jahrgang 1942, in der interaktiven Grafik 2025 als rotes Männlein bei bester Gesundheit und mit einem kleinen Altersschildchen mit der 85 erscheinen. Auf ZEIT ONLINE ist er dann aber schon tot. Obwohl er mit 85 Jahren noch eine restliche Lebenserwartung von 7,4 Jahren hätte.
Quelle: ZEIT ONLINE [1]

Was ist da los? Die ZEIT ONLINEr haben ihrem Rechner einen ziemlich skurrilen plötzlichen Seniorentod einprogrammiert. Sobald das User-Männlein 60 Jahre plus die verbleibende Lebenserwartung im Alter 60 (bei meinem Vater sind das 21,7 Jahre) vollendet hat, verschwindet es von der Bildfläche der Lebenden. Das Online-Pendant meines Vaters stirbt also mit 82, obwohl er dann noch weitere 7,4 Lebensjahre zu erwarten hätte. Eine solch abruptes Lebensende ist für alle Jahrgänge einkalkuliert. Im Google Docs Spreadsheet [2] auf dem Reiter „Lebenserwartung b. Geburt“ kann man das Todesjahr in den Spalten „Männer off“ bzw. „Frauen off“ nachlesen.

Die Datenleute von ZEIT ONLINE machen einen Denkfehler, der typisch für den Umgang mit der Lebenserwartung ist: Sie glauben nämlich, das Leben müsste jenseits eines bestimmten Alters doch aber nun wirklich mal zu Ende sein. Schließlich lebt keiner ewig. Stimmt. Aber dass jemand, der 60 geworden ist, auch 90 oder 100 werden kann, ist wahrscheinlicher, als man glaubt. Und: Je älter man wird, desto größer wird die Wahrscheinlichkeit, noch älter zu werden. Das ist so irre wie wahr.

Es sind nicht wenige Senioren, deren rote Avatare auf ZEIT ONLINE so sang- und klanglos verschwinden. Im Jahr 2010 zum Beispiel alle Frauen ab 85 und alle Männer ab 81. Macht insgesamt 2,4 Millionen.

Seniorinnen und Senioren, die 2010 auf ZEIT ONLINE frühzeitig verstorben sind

In Grün: Jahrgänge der Bevölkerung in Deutschland 2010, die auf ZEIT ONLINE frühzeitig versterben

Leider auf ZEIT ONLINE im Jahr 2010 als rote Avatare schon tot, obwohl sie tatsächlich noch leben, sind die grün hervorgehobenen Altersjahrgänge: Insgesamt 2,4 Millionen Senioren.

3. Lebenserwartung: Prognose- statt Realwerte

Eine weitere Überraschung erlebt, wer sich einmal die Lebenserwartungen genauer anguckt, die der Alters-Kalkulator ausspuckt: Für ein Neugeborenes im Jahr 2009 wird zum Beispiel eine Lebenserwartung bei Geburt von 88,28 Jahre angezeigt. Schaut man aber beim Statistischen Bundesamt die Lebenserwartung für 2008/2010 nach, dann findet man [6]: „Die Lebenserwartung … beträgt für neugeborene Mädchen 82 Jahre und 7 Monate“.

Was soll das nun wieder? Die Suche nach der ausgewiesenen Quelle „destatis Kohortensterbetafel Version 1 Trend 1871“ führt beim Statistischen Bundesamt (destatis) schließlich auf eine Datei namens Generationensterbetafeln für Deutschland – Modellrechnungen für die Geburtsjahrgänge 1896-2009 [7] (Zumindest weiß man in Wiesbaden sonst auch nicht, welche Daten gemeint sein könnten. Ich lasse mich aber gerne von den Online-Kollegen der ZEIT korrigieren.)

Einerseits sollte man die Onliner beglückwünschen, dass sie diese Daten gefunden haben. Denn die hohen Lebensspannen geben ein realistischeres Bild ab von dem langen Leben, das uns bevorsteht, als die niedrigeren Werte, die für gewöhnlich öffentlich diskutiert werden (wie z.B. die 82 Jahre und 7 Monate für Mädchen im Jahr 2008/2010). Beide Werte sind von der Art her grundsätzlich verschieden: Die niedrigen Werte sind die so genannte „Perioden-Lebenserwartung“: Man kann sie jedes Jahr errechnen, indem man sich anschaut, wie viele Menschen im Vergleich zum Vorjahr in welchem Alter verstorben sind.

Die hohen Werte sind aber eigentlich viel besser: Diese so genannte „Kohorten-Lebenserwartung“ berechnet man nur aus den im Laufe ihres Lebens Verstorbenen eines einzigen Jahrgangs (zum Beispiel 1942). Wenn alle Menschen dieses Jahrgangs schon tot sind, ergibt dies die wahre und endgültige Lebenserwartung aller 1942 Geborenen. Die Perioden-Lebenserwartung ist hingegen nur so etwas wie eine rechnerische Krücke. Man hat für sie eine Formel erfunden, um jederzeit einen Anhaltspunkt zu haben, wie alt die Menschen denn wohl werden – obwohl man das noch gar nicht wissen kann.

Diese Formel hat eine spezielle mathematische Eigenschaft: Sie gibt die Lebenserwartung ständig kleiner aus als die tatsächliche endgültige, so lange die Länge des Lebens tendenziell steigt. Und weil das momentan wie schon seit Jahrzehnten der Fall ist, ist die endgültige Lebenserwartung, mit der wir rechnen dürfen, um einiges höher als die periodische, die jedes Jahr durch die Medien geistert.

Bravo, denkt man sich also, da hat ZEIT ONLINE ja was Tolles ausgegraben! Das Blöde bei der Kohorten-Lebenserwartung ist eben nur: Man weiß sie wirklich erst, wenn der ganze Jahrgang schon gestorben ist. Das Statistische Bundesamt schreibt darum im Methodenteil zu den „Generationssterbetafeln“ (der Methodenteil steht nur in der älteren Ausgabe von 2006 [8]), mit denen ZEIT ONLINE seinen Rechner gefüttert hat:

Deshalb ist die Erstellung von Generationensterbetafeln zunächst auf die Geburtsjahrgänge von vor 1900 begrenzt, da diese erst als ausgestorben gelten können. Um auch jüngere Jahrgänge einbeziehen zu können, müssen die noch fehlenden Altersjahre durch Schätzungen mit Hilfe eines mathematischen Modells ergänzt werden. Diese Schätzungen werden jedoch bei zunehmend jüngeren Jahrgängen immer unsicherer.

Statt gemessener Werte bekommt man auf ZEIT ONLINE also Vorausschätzungen. Das kann man natürlich so machen. Aber hätte man nicht irgendwo erklären sollen, welche demografische Daten-Besonderheit man hier kredenzt bekommt? Ich bin mir leider nicht sicher, ob die Redakteure den Unterschied überhaupt verstanden haben. Denn in der Quellenangabe zur Bevölkerungsvorausberechnung 2-W2 (nein, es ist ja 2-W1!) ist ebenso die Rede von der „Lebenerwartung bei Geburt“ wie oben im Kalkulator. Es ist aber jeweils ein anderes Maß gemeint: unten die Perioden-Lebenserwartung und oben die Kohorten-Lebenserwartung. Das geht ziemlich durcheinander.

Merkwürdig auch: Destatis schätzt Die Lebenserwartung der Kohorten bis 2009. Auf ZEIT ONLINE kann man sie aber bis 2012 abrufen. Woher kommen eigentlich die Werte für 2010, 2011 und 2012?


Update 23.02.2012, 13:04 Uhr: Gerade erst stelle ich fest, dass die Lebenserwartung, mit der ZEIT ONLINE rechnet, nur für die alten Bundesländer gilt. In Ostdeutschland sind die Werte aber anders (niedriger). Besonders in der Vergangenheit waren die Unterschiede deutlich. Mitbürger aus den neuen Ländern sollten den Rechner also besser mit doppelter Vorsicht genießen.

Update 23.02.2012, 15:07 Uhr: Inzwischen hat ZEIT ONLINE in der Fußnote (also in der Quellenangabe) einen Vermerk angebracht, dass die Lebenserwartung nur für das frühere Bundesgebiet gilt. Der Einführungstext über dem Rechner vermittelt aber weiter den Eindruck, es ginge um ein Tool für ganz Deutschland.