
Datenjournalismus in Deutschland ist in der Zwickmühle: Einerseits ist er hoch erwünscht, wird herbeigesehnt, -geredet, und -gelehrt. Morgen startet das netzwerk recherche in Hamburg sogar eigens eine große Fachkonferenz zum Thema [5]. Andererseits ist guter Datenjournalismus in deutschen Medien immer noch eine Rarität. Er wird einfach kaum gemacht. Und wenn, läuft er Gefahr, schick auszusehen, aber journalistisch mangelhaft [6] zu sein.
Begleitend gibt es eine Diskussion um Datenjournalismus, die man recht treffende wohl als verkopft und technikgetrieben bezeichnen könnte. Es wird theoretisch darüber gestritten, was Datenjournalismus eigentlich ist und gleichzeitig wird ein neues Online-Tool nach dem nächsten bejubelt, mit dem sich Daten wunderbar visualisieren ließen, wenn man denn bloß in den Medien Gelegenheit dazu hätte.
[7]
Wann die Kinder kommen [7] – Zeugung und Geburt hängen von der Jahreszeit ab
[1]
Interaktive Grafik: Geburten und Zeugungsakte nach Monaten und Jahren [1]
[8]
Wie viel sind 1790 Babys [8], die im März 2010 geboren wurden?
Alle Daten auf GoogleDocs [9]
Details zu Geburten- und Zeugungsdaten
Meinungen, Kritik, Hinweise auf Fehler – hier mitreden! [10]
Was fehlt, ist die journalistische Komponente, und vor allem: Eine Debatte anhand von konkreten Beispielen (und zwar journalistisch relevanten, nicht reinen Dummy-Datensätzen für Technik-Tutorials). Mein folgendes Plädoyer für einen Datenjournalismus der 5½ Ebenen versteht sich als Beitrag zu einer konkreteren journalistischen Diskussion.
Es ist der Versuch eines programmatischen Vorschlags, aus welchen Bausteinen gute Datenjournalismus-Stücke bestehen sollen, welche Mindestanforderungen sie erfüllen müssen, und welchem Zweck sie dienen. Die einzelnen Punkte sind nur angedacht, zu vielen Punkten habe ich offene Fragen (ich liste sie unter den einzelnen Ebenen auf – Meinungen dazu sind willkommen!).Die Ideen sind nicht wirklich von mir, sondern geklaut, abgeschaut vor allem in den englischsprachigen Medien, etwa den Stücken der ProPublica [11]-Journalisten.
Um konkret zu bleiben, habe ich versucht, die 5½ Ebenen exemplarisch in meinem Daten-Post Wann die Kinder kommen [4] umzusetzen. Der ist zwar inhaltlich eher ein Leichtgewicht, aber ich wollte ausprobieren, ob und wie das Konzept auch in einem solchen Fall überhaupt funktionieren kann. Die Verlinkungen im Kasten „Info-Ebenen“ führen zu den jeweiligen Bausteinen.
Das Folgende soll eher Stoff für weitere Diskussion sein als ein fertiges Konzept.
Jedes datenjournalistische Stück sollte diese 5½ Informations-Ebenen bespielen (Überblick, im Detail s.u.):
1. Die Story
2. (Interaktive) Visualisierung
3. Daten & Quellen
4. Daten-Lupe
5. Journalistischer Hintergrund
5½. Kommentarfunktion (Fehler-Feedback & Kritik)
Je nach Medium und Fall wird die konkrete Umsetzung der einzelnen Ebenen anders ausfallen. Unter bestimmten Bedingungen können die Ebenen 2 (Visualisierung) und 5 (journalistischer Hintergrund) sicherlich wegfallen. Unantastbar sind 1, 3 und 5½. Welche Ebene wann mit gutem Grund wegfallen kann, ist für mich eine offene Frage. Eine wirklich gute und umfassende datenjournalistische Geschichte umfasst aber alle Ebenen, und zwar unabhängig vom Medium.
Wie soll das gehen, z.B. im Print oder im Radio? Zum einen haben die „klassischen“ Medien noch längst nicht ihre kreativen Grenzen ausgelotet, wenn es darum geht, mal eine exakte Quellenangabe zu machen, dem Publikum Korrekturen (an den Daten oder Berechnungen) durch Feedback zu ermöglichen, oder Zusatzinformationen unterzubringen. Im Print gibt es bei entsprechendem Layout – den Willen vorausgesetzt – immer irgendwo Platz für zusätzliche Text- oder Grafikbausteine. Im Radio ist es sicherlich schwieriger. Aber warum nicht mal überlegen, wie man An-, Abmoderation oder innerhalb eines Stücks verschiedene Sprecher-Ebenen nutzen könnte?
Außerdem hat heute eigentlich jedes Medium einen Internetauftritt. Die Trennung zwischen klassischen Medien und ihren Online-Auftritten, die hierzulande immer noch finanziell, ideologisch und emotional gelebt wird ist aber längst künstlich. Die USA machen vor, wie gerade Datengeschichten, für die Off- und Online-Medien kooperieren, den Journalismus deutlich besser machen. Strickmuster: Print nimmt die große Story ins Blatt, steuert Ressourcen, Vertrauens- und Aufmerksamkeitskredit bei und die weiteren Ebenen werden professionell im Web aufbereitet (wo sich zusätzlich auch die Story findet). Das ist das Modell der Zukunft. Anders wird es auch gar nicht gehen, wenn Deutschland journalistisch nicht noch weiter zurückbleiben will.
Ich halte mich bei der folgenden Beschreibung der Ebenen vor allem an die Möglichkeiten des Internets. Wenn ich „Leser“ schreibe, meine ich immer den Mediennutzer generell.
Die 5½ Ebenen im Detail:
1. Ebene: Die Story
Die Story ist die wichtigste und die journalistisch entscheidende Ebene. Sie beantwortet die große, grundlegende Frage, um die sich das Stück rankt, verständlich und einem roten Faden folgend. Sie stellt, oft verbal, einzelne Daten und Fakten in den richtigen (gesellschaftlichen) Zusammenhang, ordnet ein, vergleicht und vor allem: selektiert.
In die Story-Ebene gehört nur eine Auswahl der Daten, die der Journalist bei der Recherche gesammelt hat. Nämlich diejenigen, die zur Beantwortung der Grundfrage nötig sind. Im Extremfall kann sogar nur eine, oder auch gar keine Zahl in der Geschichte ausformuliert werden. Z.B., wenn die Analyse von Daten am Ende nur zu einer entscheidenden Person oder Region geführt hat (in der Daten-Ebene müssen die Daten dann aber präsentiert werden).
Die Story ist die Basisebene. Von ihr aus müssen alle anderen Ebenen ersichtlich und einfach erreichbar sein (etwa wie im Kasten „Info-Ebenen“). Man muss von jedem Baustein wieder einfach zur Story zurück finden (klingt trivial, aber all zu oft verläuft man sich nach ein, zwei Klicks im datenjournalistischen Nirvana).
Wahrnehmungstechnisch ist die Story die oberste Ebene: Das gut sichtbar positionierte Stück, nach allen Regeln der journalistischen Kunst niederschwellig und unterhaltsam aufgebaut. Wer nicht viel Zeit hat, und nur die Story liest, hat die Message trotzdem begriffen.
Alle anderen Ebenen sind Zusatzangebote. Sie müssen von der Story aus leicht zugänglich sein, dürfen sie aber nicht mit direkt sichtbarer Information überlasten (eine Ausnahme sind die wichtigsten Teile der Visualisierung, wenn sie als teil der Story an sich gelten dürfen). Das würde den Leser abschrecken. Im Idealfall ist die Story so gut, dass der Leser danach „freiwillig“ in die zusätzlichen Ebenen eintaucht.
Offene Frage: Kann eine gute Datenvisualisierung für den Leser attraktiver sein als eine gute Story an sich? Und wäre es dann legitim, die tiefer liegende Illustrations-Ebene „nach oben zu ziehen“ und ihr mehr Raum zu geben als der Story?
2. Ebene: (Interaktive) Visualisierung
Visualisierung der Daten ist nicht ausdrücklich ein Muss. Generell wird zu viel, zu schnell und zu beliebig visualisiert. Es besteht die große Gefahr, dass Visualisierung an sich mit dem journalistischen Kern einer Datenstory verwechselt wird.
Wenn visualisiert wird, müssen die Grafiken ein tieferes Verständnis im Sinne der journalistischen Story ermöglichen. Sie unterstützen Klarheit, Einordnung und Orientierung (z.B. durch Karten oder Zeitreihen), also sehr journalistische Anliegen. Sie haben keinen (programmier-)künstlerischen Selbstzweck.
Grafische Orientierung kann auch für einfache Größen oder Mengenverhältnisse eine Extra-Ebene wert sein. Sogar für eine einzelne Zahl, wenn sie z.B unvorstellbar [8] ist (und das sind Zahlen schnell).
Trotzdem muss vor jeder grafischen Illustration abgewogen werden, ob sie überhaupt die richtige Darstellungsform ist. Der Infografik-Theoretiker und Powerpoint-Feind Edward Tufte [12] glaubt z.B., dass Zahlenreihen, wenn sie nicht zu umfangreich sind, in Tabellenform besser wahrnehmbar sind. Auf jeden Fall gehört Visualisierung in die Hände von Profis. Der gemeine Datenjournalist hat einfach nicht genug Zeit, so lange dem Bürohund von Bissantz [13] zuzuhören, bis er jeden infografischen Fehler, den man machen kann, kennt. Dafür gibt es zu viele.
Offene Frage: Ist es für journalistische Produkte sinnvoll, infografische „Fertiglösungen“ wie Google Fusion Tables [14] oder andere Tools zu nutzen, die zwar umsonst und schnell zu programmieren sind, aber nur begrenzt auf die konkrete journalistische Fragestellung angepasst werden können?
3. Ebene: Daten & Quellen
Erste und absolute Mindestanforderung: Eine klare und eindeutig nachvollziehbare Quellenangabe der Daten, die in der Story oder einer der anderen Ebenen benutzt werden. Im Idealfall kann sich jeder allein durch die Quellenangabe die Originalquelle selbst beschaffen (soweit sie frei verfügbar ist).
Konkret muss das Originaldokument korrekt benannt sein. Klingt simpel, aber manchmal sind die Namen „journalistisch“ verkürzt, oder unachtsam falsch angegeben; solche Dokumente sind dann kaum auffindbar. So verweist ZEIT ONLINE unter seinem Daten-Tool zur Lebenserwartung [15] auf eine Quelle Namens „destatis Kohortensterbetafel Version 1 Trend 1871“. Das Dokument des Statistischen Bundesamtes, das die Daten enthält, heißt aber „Generationensterbetafeln für Deutschland, Modellrechnungen für die Geburtsjahrgänge 1896-2009“. Wer keine korrekten Quellen angibt, setzt sich – auch wenn unabsichtlich – dem Verdacht aus, sich der Kontrolle durch Transparenz entziehen zu wollen. Um die geht es aber.
In der Quellenangabe muss auch benannt werden, wie man das Dokument beziehen kann. Ist es im Internet verfügbar, ist ein direkter Link ein Muss. (Auch das ist nicht selbstverständlich, siehe wiederum das Beispiel von ZEIT ONLINE. Ein Quellenlink fehlt, obwohl es ihn gibt [16].) Kann man die Datensätze z.B. nur per Telefon bei einem Amt erfragen, sollte das erwähnt werden. War die Beschaffung komplizierter, gehören die Informationen darüber in Daten-Lupe (4. Ebene) oder in den journalistischen Hintergrund (5. Ebene). In die Quellenangabe gehört dann ein Link auf die entsprechende Ebene.
Zweite Mindestanforderung: die Daten selbst, die der Story zugrunde liegen, müssen im Internet zur Verfügung gestellt werden. Und zwar in einem von möglichst vielen möglichst einfach lesbaren Format. Faktisch heißt das: Als Excel-Datei oder in einem kompatiblen Format. Die Daten müssen ohne Login und Passwortschutz frei herunterladbar sein.
Es sollen nicht die Originaldaten aus den Originaldokumenten sein, sondern Tabellen, die so weit aufgearbeitet sind, dass ein kritischer Leser die Verbindung dieser Daten zur Story ohne weitere Hilfe nachvollziehen und Fehlberechnungen oder Fehlschlüsse finden könnte. Wenn nötig, sind im „Excel“-Dokument entsprechende Erklärungen anzubringen.
Offene Fragen:
-
Ist die zunehmende Praxis sinnvoll, Daten bei GoogleDocs [17] online zustellen und sie damit Google anzuvertrauen und von Google abhängig zu sein? Was spräche dafür oder dagegen, die Daten stattdessen auf einem eigenen Server als Excel-Datei zum Download anzubieten? Oder gibt es freie Alternativen zu GoogleDocs?
-
Sollten in den zur Verfügung gestellten Spreadsheets nur die reinen Daten stehen, oder sollten zusätzlich die (wesentlichen) Berechnungen nachvollziehbar sein, indem die Formelbezüge zwischen den Zellen erhalten bleiben? (Wie exemplarisch im Tabellenblatt „Langjährige Mittel“ der GoogleDocs-Daten zu „Wann die Kinder kommen“ [9])
-
Sollten auch die Originaldokumente online gestellt werden?
4. Ebene: Daten-Lupe
Auf dieser Ebene werden die Daten genauer unter die Lupe genommen. Hier geht es um Aspekte, die direkt mit den Daten zu tun haben und zu ihrem Verständnis beitragen, die aber weder in der Story (weil zu kompliziert), noch auf der Datenebene (in Excel-Tabelle schwer möglich) ausreichend erklärt werden können.
Konkret könnte hier stehen, mit welcher Unsicherheit die Daten behaftet sind. Dazu könnte man z.B. den Plot aus der Visualisierungs-Ebene wiederholen, allerdings diesmal mit Fehlerbalken und Anmerkungen. Hier wäre aber auch Raum, statistische Analysen der Daten genauer zu erklären, bis hin zu Signifikanzniveaus, Konfidenzintervallen oder Chi-Qudrat-Tests. Jennifer LaFleur von ProPublica macht es vor [18] (runterscrollen bis zur Tabelle „Regression variables“).
Es darf auf dieser Ebene ruhig anspruchsvoll werden, man kann den Leser ja an die Hand nehmen. Wer bis hierhin geklickt hat, der beißt sich auch durch. Zur Not könnte man noch eine weitere Ebene einziehen, auf der meiner Meinung nach sogar Formeln erlaubt sein sollten.
Auch Eigenarten der Daten sollten hier beschrieben werden: Warum gibt es nur diese Daten und keine besseren (Erfassungsgründe, Zuständigkeitswirrwar, Datenschutz,…)? Warum sind diese Daten so alt und trotzdem die jüngsten verfügbaren (Prozessierung der Daten, rechtliche Gründe, Geldmangel,…)? Welche Denkfallen drohen, wenn man die Daten zu unkritisch betrachtet? In diese Richtung gehen die Informationen in den Popups, die ich als Daten-Lupen-Ebene zu den Geburten- und Zeugungsdaten bei „Wann die Kinder kommen“ eingebaut habe.
Offene Frage: Sind Formeln im Datenjournalismus ein Tabu? Gelten hier andere Regeln als im „Nicht-Datenjournalismus“? Auf welcher Ebene sollten sie frühestens auftauchen?
5. Ebene: Journalistischer Hintergrund
Dies ist eigentlich eine Meta-Ebene. Hier steht zum Beispiel, wie die Redaktion das Datenstück bewältigt hat, wie viele Leute daran mitgearbeitet haben, oder wo die Recherche besonders schwierig war. Ein gutes Beispiel liefert die L.A. Times mit How the members were counted [19], einem Hintergrundtext (plus Video) zu ihrer Geschichte über die demografische Zusammensetzung der Oscar Academy.
Hier gehören alle Aspekte von OpenData hin: Welche Quellen haben die Herausgabe von Daten blockiert? Musste auf die Einhaltung von Informationsfreiheitsgesetzen gepocht oder sogar geklagt werden? Haben die Daten Geld gekostet? Wie viel? Kamen die kostenpflichtigen Daten aus der öffentlichen Hand? Wie ist die Verfügbarkeit der Daten aus der Informationsperspektive des Journalismus zu bewerten?
Auf dieser Ebene kann auch dargestellt werden, welche Bedeutung das aktuelle Stück im Journalismus hat. Zu den Presidential Pardons [20], einer Geschichte über den präsidialen Erlass der Todesstrafe in den USA, betitelten die Chefs von ProPublica diese Ebene mit The Kind of Journalism That Demands Action [21]. Auch dieses Plädoyer hier nimmt das konkrete Daten-Stück „Wann die Kinder kommen“ als Ausgangspunkt, um allgemeiner über den Datenjournalismus zu räsonieren.
Offene Fragen:
-
Wie weit sollte die Recherche selbst Teil eines journalistischen Produkts sein? Sollten dafür im Datenjournalismus besondere Regeln gelten?
-
Sollten Aspekte wie (kein) OpenData und andere Recherchehindernisse besser in der „Daten-Lupe“ beschrieben werden, weil sie direkt mit den Daten zusammenhängen?
5½. Ebene: Kommentarfunktion (Fehler-Feedback & Kritik)
Diese Ebene ist letztlich nicht mehr als ein simples online-Kommentarfeld. Eigentlich hat heute jeder Internetauftritt so eine Funktion, darum zählt sie auch nur als halbe Ebene. Trotzdem scheint sie nicht selbstverständlich zu sein. Das ZEIT ONLINE Daten-Tool zur Lebenserwartung [15] hat zum Beispiel kein Kommentarfeld.
Es gibt dort damit keine Möglichkeit, Fehler zu melden, das Potenzial der Leser an Wissen und Aufmerksamkeit kann nicht genutzt werden. Gerade das gibt der Transparenz von gutem Datenjournalismus aber den Sinn. Kommentarfelder sollten darum auch auf solchen Seiten angebracht sein, wo der Kern der (interaktiven) Visualisierierung angesiedelt ist.
Auch exzellente Datenprojekte wie der Zugmonitor auf sueddeutsche.de [22] oder die Presidential Pardons der Washington Post zusammen mit ProPublica [23], die beide vorbildlich viele Informations-Ebenen haben, bieten kein Feld für Kommentare unter ihren Daten-Tools. sueddeutsche.de bietet für Hinweise eine eigene E-Mail- bzw. Twitter-Adresse an. Solche Rückmeldungen dürften weitgehend unsichtbar sein. Und der Reiz für die Redaktion ihnen nachzugehen eher gering.
Der Journalismus wird sich daran messen lassen müssen, wie viel Transparenz er schafft, und wie er das Feedback der Leser nutzen kann, um seine Qualität zu steigern. Datenjournalismus ist die perfekte Möglichkeit, anzuerkennen, wie mündig die Leser sind. Sie können nicht nur denken und rechnen, sie tun es auch. Sollte noch ein Fehler im Datenstück sein, irgendjemand findet ihn bestimmt und man kann ihn korrigieren. So viel Wahrheitsanspruch schuldet Journalismus seinem Publikum – als Gegenleistung für dessen Vertrauen.