22. Februar 2012, 21:08  5 Kommentare

Die Untoten von ZEIT ONLINE

ZEIT ONLINE wartet heute mit einer interaktiven Grafik zur Bevölkerungsstruktur bis ins Jahr 2060 auf, die einfach toll aussieht. Look & Feel sind super, man kann sein Geburtsdatum eingeben, mit einem handlichen Schieber das Jahr einstellen, und dann ablesen, wie hoch die eigene Lebenserwartung ist. Gleichzeitig bevölkern kleine bunte Männchen und Weibchen den Bildschirm, und zwar so aufgestellt wie die Bevölkerungsstruktur im gewählten Jahr. Mittendrin findet man sich selbst als Mitbürger in schickem Rot. Sehr schöne Idee und wirklich sehr hübsch. Nur leider stimmen die Daten dahinter nicht: Die lustigen Figuren ordnen sich nach einem anderen Datensatz an als in der Quelle angegeben, sie sterben einen ungewöhnlich frühen Tod und haben nicht die real an der Bevölkerung gemessenen Lebenserwartungen.

Liebe Kollegen bei ZEIT ONLINE, ich bin mir sicher: Ihr nehmt meine Kritik sportlich. Es sind drei Punkte, die am ZEIT ONLINE-Tool falsch oder zumindest skurril sind (Stand 22.02.2012, 20 Uhr). Ich gehe hier jetzt genauer auf jeden einzeln ein, weil ich das Gefühl habe, dass diese interaktive Grafik symptomatisch ist für ein großes Missverständnis im gerade aufkeimenden Datenjournalismus: Nämlich dass es mit einer schönen Grafik getan wäre. Dass eine gelungene interaktive Visualisierung, die sich schnell twittern lässt, guter Datenjournalismus wären. Dem ist nicht so, leider manchmal im Gegenteil.

Auch Datenjournalismus ist Journalismus! Das heißt: Was wirklich zählt, ist nicht das schöne Äußere einer (Daten-)Story, sondern die Recherche dahinter. Und Recherche im Datenjournalismus bedeutet, die Daten genau zu verstehen, die man benutzt. Ihre Bedeutung zu erkennen, Quellenkritik zu betreiben, und wenn nötig, dem User (früher: Leser) zu erklären, worin er da gerade herumklickt. In den Medien scheint es mir neuerdings einen Trend zu geben, dass schnell und viel visualisiert wird – besonders gerne interaktiv -, echte Recherche der Daten aber nicht oder nur unzureichend stattfindet. Damit führt Datenvisualisierung zu einem Rückschritt im Journalismus. Und nicht zu einem Fortschritt, wie es eigentlich sein sollte. Meistens merkt’s keiner. Der User erkennt ja schließlich am fertigen Tool nicht, wenn hintendran etwas nicht stimmt.

Was stimmt in diesem Fall hintendran nicht?

1. Falsche Prognose-Variante verwendet

ZEIT ONLINE gibt an, für die Online-Grafik Daten aus der 12. Bevölkerungsvorausberechnung des Statistischen Bundesamtes zu verwenden, und zwar aus der Variante „2-W2“. Gute Idee! Diese Variante hat realistischerweise eine hohe Lebenserwartung und einen hohen Netto-Einwanderungssaldo von +200.000 pro Jahr. Nur leider nutzt der ZEIT ONLINE-Rechner gar nicht wirklich die Variante 2-W2. Im Google Docs Spreadsheet, in dem die Redaktion ihre Daten online gestellt hat, findet man stattdessen die Daten der Variante „2-W1“. Für sie ist die Lebenserwartung zwar hoch, die Nettoeinwanderung aber nur bei +100.000 pro Jahr.

Nur eine Kleinigkeit? Nein: Im Jahr 2060 macht das für die Gesamtbevölkerung einen Unterschied von 72.439.000 – 66.919.000 = 5.520.000 Menschen. Die Anzahl der Kinder, Erwachsenen und Alten in den einzelnen Altersgruppen stimmt entsprechend auch nicht:

Bevölkerungsstruktur auf ZEIT ONLINE und tatsächliche Variante 2-W2

Vergleich der Bevoelkerungsstruktur auf ZEIT ONLINE mit der tatsäclichen Prognose-Variante 2-W2

Die Bevölkerung der auf ZEIT ONLINE zu sehenden Männchen (blau, entspricht Variante 2-W1) ist um einiges kleiner als die der tatsächlichen Prognose-Variante, die in der Quelle angegeben wird (rot, entspricht Variante 2-W2).
Quelle: Statistisches Bundesamt, Daten auf Google Docs

Man würde den Online-Redakteuren gerne unterstellen, dass sie sich bei ihrer Quellenangabe nur vertippt haben. Aber an der genaueren Beschreibung der verwendeten Variante („Jährlicher Ein- und Auswanderungssaldo: + 200 000 Personen jährlich ab 2020“), wird klar, dass man tatsächlich mit dem hohen Wanderungsszenario rechnen wollte, es aber einfach nicht getan hat. Dabei geht es nicht darum, dass einzelne Zahlen vertauscht wurden, sondern gleich der ganze Datensatz.

Update 23.02.2012, 13:04 Uhr: Inzwischen hat ZEIT ONLINE die Angaben zu den Daten geändert und die Variante „2-W1“ ausgewiesen. Dazu wurde ein Korrekturhinweis angebracht, der auf den ursprünglichen Fehler hinweist. Sauber!

2. Das frühe Versterben der Zeit-Männchen

Ich war ziemlich baff, als ich mit dem Schieber herumspielte, ihn sachte in Richtung Zukunft schob, und plötzlich mein Männlein verschwand. Es war einfach weg, verstorben. Das ist extrem bedauerlich, denn ich hatte den Jahrgang meines Vaters eingegeben, 1942. Er feiert dieses Jahr seinen 70. Geburtstag. Zu meinem Schrecken hält er auf ZEIT ONLINE danach nur noch bis 2024 durch. Ruckle ich den Jahres-Schieber nur ein Jahr weiter, ist sein Figürchen plötzlich weg. Papa tot.

Plötzlich ist Papa weg

Screenshot von ZEIT ONLINE, auf dem mein Vater, Jahrgang 1942, im Alter von 85 leider plötzlich verstorben ist.

Wie Sie sehen, sehen Sie nichts: Eigentlich sollte mein Vater, Jahrgang 1942, in der interaktiven Grafik 2025 als rotes Männlein bei bester Gesundheit und mit einem kleinen Altersschildchen mit der 85 erscheinen. Auf ZEIT ONLINE ist er dann aber schon tot. Obwohl er mit 85 Jahren noch eine restliche Lebenserwartung von 7,4 Jahren hätte.
Quelle: ZEIT ONLINE

Was ist da los? Die ZEIT ONLINEr haben ihrem Rechner einen ziemlich skurrilen plötzlichen Seniorentod einprogrammiert. Sobald das User-Männlein 60 Jahre plus die verbleibende Lebenserwartung im Alter 60 (bei meinem Vater sind das 21,7 Jahre) vollendet hat, verschwindet es von der Bildfläche der Lebenden. Das Online-Pendant meines Vaters stirbt also mit 82, obwohl er dann noch weitere 7,4 Lebensjahre zu erwarten hätte. Eine solch abruptes Lebensende ist für alle Jahrgänge einkalkuliert. Im Google Docs Spreadsheet auf dem Reiter „Lebenserwartung b. Geburt“ kann man das Todesjahr in den Spalten „Männer off“ bzw. „Frauen off“ nachlesen.

Die Datenleute von ZEIT ONLINE machen einen Denkfehler, der typisch für den Umgang mit der Lebenserwartung ist: Sie glauben nämlich, das Leben müsste jenseits eines bestimmten Alters doch aber nun wirklich mal zu Ende sein. Schließlich lebt keiner ewig. Stimmt. Aber dass jemand, der 60 geworden ist, auch 90 oder 100 werden kann, ist wahrscheinlicher, als man glaubt. Und: Je älter man wird, desto größer wird die Wahrscheinlichkeit, noch älter zu werden. Das ist so irre wie wahr.

Es sind nicht wenige Senioren, deren rote Avatare auf ZEIT ONLINE so sang- und klanglos verschwinden. Im Jahr 2010 zum Beispiel alle Frauen ab 85 und alle Männer ab 81. Macht insgesamt 2,4 Millionen.

Seniorinnen und Senioren, die 2010 auf ZEIT ONLINE frühzeitig verstorben sind

In Grün: Jahrgänge der Bevölkerung in Deutschland 2010, die auf ZEIT ONLINE frühzeitig versterben

Leider auf ZEIT ONLINE im Jahr 2010 als rote Avatare schon tot, obwohl sie tatsächlich noch leben, sind die grün hervorgehobenen Altersjahrgänge: Insgesamt 2,4 Millionen Senioren.

3. Lebenserwartung: Prognose- statt Realwerte

Eine weitere Überraschung erlebt, wer sich einmal die Lebenserwartungen genauer anguckt, die der Alters-Kalkulator ausspuckt: Für ein Neugeborenes im Jahr 2009 wird zum Beispiel eine Lebenserwartung bei Geburt von 88,28 Jahre angezeigt. Schaut man aber beim Statistischen Bundesamt die Lebenserwartung für 2008/2010 nach, dann findet man: „Die Lebenserwartung … beträgt für neugeborene Mädchen 82 Jahre und 7 Monate“.

Was soll das nun wieder? Die Suche nach der ausgewiesenen Quelle „destatis Kohortensterbetafel Version 1 Trend 1871“ führt beim Statistischen Bundesamt (destatis) schließlich auf eine Datei namens Generationensterbetafeln für Deutschland – Modellrechnungen für die Geburtsjahrgänge 1896-2009 (Zumindest weiß man in Wiesbaden sonst auch nicht, welche Daten gemeint sein könnten. Ich lasse mich aber gerne von den Online-Kollegen der ZEIT korrigieren.)

Einerseits sollte man die Onliner beglückwünschen, dass sie diese Daten gefunden haben. Denn die hohen Lebensspannen geben ein realistischeres Bild ab von dem langen Leben, das uns bevorsteht, als die niedrigeren Werte, die für gewöhnlich öffentlich diskutiert werden (wie z.B. die 82 Jahre und 7 Monate für Mädchen im Jahr 2008/2010). Beide Werte sind von der Art her grundsätzlich verschieden: Die niedrigen Werte sind die so genannte „Perioden-Lebenserwartung“: Man kann sie jedes Jahr errechnen, indem man sich anschaut, wie viele Menschen im Vergleich zum Vorjahr in welchem Alter verstorben sind.

Die hohen Werte sind aber eigentlich viel besser: Diese so genannte „Kohorten-Lebenserwartung“ berechnet man nur aus den im Laufe ihres Lebens Verstorbenen eines einzigen Jahrgangs (zum Beispiel 1942). Wenn alle Menschen dieses Jahrgangs schon tot sind, ergibt dies die wahre und endgültige Lebenserwartung aller 1942 Geborenen. Die Perioden-Lebenserwartung ist hingegen nur so etwas wie eine rechnerische Krücke. Man hat für sie eine Formel erfunden, um jederzeit einen Anhaltspunkt zu haben, wie alt die Menschen denn wohl werden – obwohl man das noch gar nicht wissen kann.

Diese Formel hat eine spezielle mathematische Eigenschaft: Sie gibt die Lebenserwartung ständig kleiner aus als die tatsächliche endgültige, so lange die Länge des Lebens tendenziell steigt. Und weil das momentan wie schon seit Jahrzehnten der Fall ist, ist die endgültige Lebenserwartung, mit der wir rechnen dürfen, um einiges höher als die periodische, die jedes Jahr durch die Medien geistert.

Bravo, denkt man sich also, da hat ZEIT ONLINE ja was Tolles ausgegraben! Das Blöde bei der Kohorten-Lebenserwartung ist eben nur: Man weiß sie wirklich erst, wenn der ganze Jahrgang schon gestorben ist. Das Statistische Bundesamt schreibt darum im Methodenteil zu den „Generationssterbetafeln“ (der Methodenteil steht nur in der älteren Ausgabe von 2006), mit denen ZEIT ONLINE seinen Rechner gefüttert hat:

Deshalb ist die Erstellung von Generationensterbetafeln zunächst auf die Geburtsjahrgänge von vor 1900 begrenzt, da diese erst als ausgestorben gelten können. Um auch jüngere Jahrgänge einbeziehen zu können, müssen die noch fehlenden Altersjahre durch Schätzungen mit Hilfe eines mathematischen Modells ergänzt werden. Diese Schätzungen werden jedoch bei zunehmend jüngeren Jahrgängen immer unsicherer.

Statt gemessener Werte bekommt man auf ZEIT ONLINE also Vorausschätzungen. Das kann man natürlich so machen. Aber hätte man nicht irgendwo erklären sollen, welche demografische Daten-Besonderheit man hier kredenzt bekommt? Ich bin mir leider nicht sicher, ob die Redakteure den Unterschied überhaupt verstanden haben. Denn in der Quellenangabe zur Bevölkerungsvorausberechnung 2-W2 (nein, es ist ja 2-W1!) ist ebenso die Rede von der „Lebenerwartung bei Geburt“ wie oben im Kalkulator. Es ist aber jeweils ein anderes Maß gemeint: unten die Perioden-Lebenserwartung und oben die Kohorten-Lebenserwartung. Das geht ziemlich durcheinander.

Merkwürdig auch: Destatis schätzt Die Lebenserwartung der Kohorten bis 2009. Auf ZEIT ONLINE kann man sie aber bis 2012 abrufen. Woher kommen eigentlich die Werte für 2010, 2011 und 2012?


Update 23.02.2012, 13:04 Uhr: Gerade erst stelle ich fest, dass die Lebenserwartung, mit der ZEIT ONLINE rechnet, nur für die alten Bundesländer gilt. In Ostdeutschland sind die Werte aber anders (niedriger). Besonders in der Vergangenheit waren die Unterschiede deutlich. Mitbürger aus den neuen Ländern sollten den Rechner also besser mit doppelter Vorsicht genießen.

Update 23.02.2012, 15:07 Uhr: Inzwischen hat ZEIT ONLINE in der Fußnote (also in der Quellenangabe) einen Vermerk angebracht, dass die Lebenserwartung nur für das frühere Bundesgebiet gilt. Der Einführungstext über dem Rechner vermittelt aber weiter den Eindruck, es ginge um ein Tool für ganz Deutschland.

2 comments… read them below or add one(Bitte beachten Sie die Hinweise und Regeln zu Kommentaren.)

Sascha Venohr Februar 23, 2012 um 14:03

Lieber Björn Schwentker,

zunächst vielen Dank für die ausführliche und kritische Betrachtung unseres Gruppenbildes einer alternden Gesellschaft. Auch wir sind davon überzeugt, dass der Datenjournalismus den Journalismus besser macht. Gerade das Prinzip, die verwendeten Daten offenzulegen, bringt Transparenz und ermöglicht den Lesern, die Grundlage einer Visualisierung zu hinterfragen.

In der Tat ist uns in der Quellenangabe ein ärgerlicher Textfehler unterlaufen, den wir bedauern. Sämtliche Berechnungen des Gruppenbilds wurden, wie von Ihnen richtig identifiziert, mit der Prognosevariante 2 – W1 gerechnet. Diese falsche Quellenbezeichnung haben wir auf der Seite korrigiert. Mit anderen Worten: Die Berechnungen für das Gruppenbild auf Basis der Variante 2-W1 stimmen, die Quellenangabe war leider falsch.
Sicherlich gehen die Meinungen darüber auseinander, welche Variante für die Zukunft wahrscheinlicher ist. Wir halten eine Stagnation der Geburtenrate und die gleichzeitig stark ansteigende Lebenserwartung für realistisch. Die jährlichen Ein- und Auswanderungszahlen schwanken sehr. Der aktuellste verfügbare Wert liegt für das Jahr 2010 mit einem Wanderungssaldo von +127.000 vor. Daher sind wir der Prognosevariante 2-W1 mit der Annahme von +100.000 Personen jährlich gefolgt, um nah am Status Quo zu sein.
Selbstverständlich legen wir an datenjournalistische Projekte die gleichen hohen journalistischen Standards an wie an jeden anderen Beitrag. Diese Standards kennen Sie ja als ehemaliger Kollege bei ZEIT ONLINE. Wir haben die Auswahl der Daten ausführlich in der Redaktion diskutiert und diverse Gespräche mit dem Statistischen Bundesamt geführt, um uns unserer Sache sicher zu sein.
Zu Ihrer Kritik zum frühen „Sterben“ der Figuren. Kern der Visualisierung ist, die Entwicklung der verschiedenen Altersgruppen aufzuzeigen. Wichtig war uns, es dem Betrachter darüber hinaus zu ermöglichen, sich selbst auf dem Bild „mitaltern“ zu sehen. Man hätte sich hier auch entscheiden können, alle Figuren 100 Jahre alt werden zu lassen. Aber auch der Blick in eine Sterbetafel beispielsweise für das Jahr 2040 zeigt, dass ein Mensch bei Erreichen des 100. Lebensjahres dann noch eine statistische Restlebenszeit von 2,65 Jahren hat. Kurzum, diese Varianzen lassen sich nicht darstellen.
Wir halten es aber für eine erhellende Information, einen Anhaltspunkt für das eigene Altern und die eigene Endlichkeit zu erhalten. Daher haben wir uns entschlossen, für die Visualisierung den statistischen Mittelwert für das erreichte Alter von 60 Jahren als Grundlage für die Markierung des Männchens zu zeigen. Gewiss, Menschen der verschiedenen Jahrgänge werden früher oder später sterben. So sei es Ihrem Vater hoffentlich vergönnt, länger als diese statistische Lebenserwartung zu leben. Aber gerade durch den Mittelwert werden Trends vergleichbar. Und Lebenserwartung hat nun einmal etwas mit Endlichkeit zu tun. Wir halten es für transparenter, wenn wir diesen Mittelwert darstellen, als spekulativ einzelne Jahrgänge mit Altersangaben von 90 oder 100 Jahren zu versehen. Die Darstellung der Lebenserwartungen und das Ausblenden der Markierung hat keinerlei rechnerische Auswirkung auf die Zusammensetzung des Gruppenbildes.

Zu den Daten der Lebenserwartung. Wie Sie halten wir es für realistischer, hier die Grundlage der so genannten „Kohorten-Lebenserwartung“ zu verwenden – auch wenn sie final natürlich erst sein können, wenn alle Menschen eines Jahrgangs gestorben sind. Sie haben Recht, dass diese Schätzungen bei zunehmend jüngeren Jahrgängen immer unsicherer werden. Dafür sind die persönlichen Jahrgangsdaten für viele unserer Leser im Erwachsenenalter genauer. Aber das liegt nun mal in der Natur von in die Zukunft gerechneten Lebenserwartungen. Sie sind immer Vorausschätzungen, deshalb unserer Meinung nach aber nicht minder wertvoll.
Die von Ihnen angesprochenen Jahre 2010 bis 2012 wurden von uns auf Basis der Trends des vorherigen Jahrzehnts interpoliert. Dies haben wir im GoogleDoc vermerkt. Zu Ihrem Update-Hinweis: Unter dem Diagramm ist in der Fußnote der Hinweis angebracht, dass die Daten für das ehemalige Bundesgebiet gelten.

Mit freundlichen Grüßen
Sascha Venohr, Redakteur ZEIT ONLINE

Antworten

Björn Schwentker Februar 23, 2012 um 14:52

Lieber Herr Venohr,

vielen Dank für Ihren Kommentar. Dass Sie als Entwicklungsredakteur hier stellvertretend für ZEIT ONLINE öffentlich Stellung nehmen, verdient Respekt und zeugt von einer erfreulich offenen Netzkultur.

Ich begrüße sehr, dass es in der Fußnote einen Hinweis darauf gibt, dass die Lebenserwartung nur für das ehemalige Bundesgebiet gilt. Da ich aus Ihrer Formulierung nicht schließen konnte, ob Sie ihn nachträglich angebracht haben, habe ich nochmal in einem Screenshot von gestern nachgesehen:

Gestern war er noch nicht drin. Um so besser, dass er jetzt da ist. Aber wäre es ZEIT ONLINE seinen Lesern nicht schuldig, direkt oben im Einführungstext darauf hinzuweisen, dass die Lebenserwartungs-Werte des Rechners nur für West-Bürger gelten? Die Fußnote dürfte kaum gelesen werden. Meinen Sie nicht, dass so weiterhin der falsche Eindruck entsteht, Sie hätten hier ein Tool für ganz Deutschland gebaut? Vielleicht ist die Redaktion ja so souverän und ändert den Einführungstext auch noch.

Auch Ihr im Google Document im Nachhinein eingetragener Vermerk zu Ihren eigenen Berechnungen der Lebenserwartung in den Jahren 2010, 2011 und 2012 ist sehr erfreulich.

Viele Grüße
Björn Schwentker

Antworten

Leave a Comment

3 trackbacks(Bitte beachten Sie die Hinweise und Regeln zu Kommentaren.)