23. März 2012, 10:15  7 Kommentare

Wann die Kinder kommen: Plädoyer für einen Datenjournalismus auf 5½ Ebenen

, ,

Geburten: Wann und wie viele?

Obwohl dieses Datengeschichte im März 2012 online ging, stammen die jüngsten Geburtendaten gerade mal von 2010. Warum – in den Zeitungen liest man doch teilweise schon sehr zeitnah über die jüngste „Babywelle“ in Gemeinde, Stadt oder Land?

Stimmt. Aber diese Zahlen sind meistens falsch. Tatsächlich gibt es aussagefähige Zahlen darüber, wann wo wie viele Kinder zur Welt kamen, erst im August des Folgejahres, und zwar bei den statistischen Ämtern (nicht etwa bei den Krankenhäusern!). Für die Monate des Jahres 2012 also im August 2013. Das Statistische Bundesamt (destatis) veröffentlicht diese Daten mit dem Quellenhinweis „Tabelle N30“. Nur dieser Quelle sollte man trauen.

Zwar liegen auf den verschiedenen Ebenen der amtlichen Statistik – Standesämter der Gemeinden und Städte, statistische Landesämter und Bundesamt – schon vorher Angaben zu den Geburten nach Monaten vor. Aber sie sind noch nicht richtig zugewiesen. Weder räumlich noch zeitlich.

Die Neugeborenen werden nämlich zunächst dem Ort zugeschrieben, an dem sie registriert wurden. Das ist häufig z.B. dort, wo das Krankenhaus ist, in dem die Mutter niederkam. Vom Wohnort der Eltern, der meistens eigentlich interessiert, kann dies um einiges entfernt sein, zumal in ländlichen Gebieten (u.a. deshalb sind auch Kliniken als direkte Datenquellen nicht unbedingt geeignet). Nicht einmal die Zuordnung nach Ländern stimmt zu diesem Zeitpunkt, denn einige gebären nicht in dem Bundesland, in dem sie wohnen.

Zeitlich tragen die amtlichen Geburtsmeldungen zunächst den Monat ihrer Lieferung bzw. amtlichen Bearbeitung, nicht aber den der tatsächlichen Geburt. Oft stimmen beide nicht überein. Gerade zum Jahreswechsel nicht, wenn viel Feiertage sind. Dann ist häufig nicht einmal das Geburtsjahr richtig.

Verloren sind die korrekten Angaben natürlich nicht. Es dauert nur einige Monate, bis die amtlichen Statistiker sie alle bearbeitet, untereinander abgeglichen und bestätigt haben. Wenn letztlich die N30-Daten vorliegen, stimmt alles.

Solche N30-Zahlen stecken auch in der interaktiven Zeitmaschine von „Wann die Kinder kommen“. Destatis gibt bloß die Gesamtsummen pro Monat heraus. Um saisonale Abweichungen der einzelnen Monate vom Jahresmittel richtig zu berechnen, muss man unbedingt zuerst die Tagesdurchschnitte bilden, die Monatssummen also durch die korrekte Zahl der Tage in jedem Monat teilen (mit Rücksicht auf Schaltjahre).

Sonst kann allein der Unterschied von Januar zum Februar einen Unterschied von Minus zehn Prozent ausmachen, auch wenn in beiden Monaten pro Tag gleich viele Babys kamen. Denn wenn der Februar nur 28 Tage hat, ist das schon zehn Prozent weniger als im Januar. Man sähe also einen deutlichen Rückgang in der Saison-Grafik, obwohl es gar keinen gibt.

Zeugungen: Daten aus deutschen Schlafzimmern?

Deutschlands amtliche Statistik erfasst verdammt viel über die Landeseinwohner. Aber nicht, wann sie Sex haben, der zu Kindern führt (oder wann sie auf andere Art Nachwuchs zeugen). Für die interaktive Darstellung in der Zeitmaschine musste darum eine krude Berechnung als Krücke herhalten: Zeugungsmonat = Geburtsmonat – neun Monate.

Die tatsächliche Schwangerschaftsdauer festzustellen, ist selbst für die Wissenschaft eine schwierige Sache. Es gibt verschiedene Definitionen, unter anderem die übliche Berechnung des Geburtstermins auf ein Datum, das 40 Wochen nach der letzten Regel liegt. Die Minis geben sich aber ziemlich unberechenbar, und ihre Ankunft schwankt deutlich um dieses Datum.

Dass die 40-Wochen-Regel überhaupt angewendet wird, liegt daran, dass meistens weder Frauenärzte noch Eltern den Tag der Empfängnis (= Tag der Zeugung – ggf. auch etwas später) exakt kennen. Zieht man von den 40 Wochen die übliche Zeit zwischen Ende der Monatsblutung und Beginn der fruchtbarsten Tage im Zyklus ab, landet man auch nur in etwa bei neun Monaten. Denn alle beteiligten Zeitdauern sind nicht scharf festzumachen.

Viel besser als mit der kruden Neun-Monats-Regel geht es also nicht. Ein genauerer Zeitabstand wäre hier auch sinnlos, da die Geburten, aus denen sich der Zeugungszeitpunkt berechnet, auch nicht tagesgenau vorliegen, sondern nur als Monatsangabe.

Sei’s drum. Der Fehler der Zeugungszeiten in der Zeitmaschine ist auf jeden Fall nicht größer als zwei Monate. Genau genug, um darüber zu sinnieren, was die Eltern wohl treibt, es ausgerechnet zu dieser Jahreszeit zu tun.

Schiebt man den Jahresregler der Zeitmaschine auf 2010 oder 1948, fehlen die Zeugungsangaben für einige Monate: April bis Dezember bzw. Januar bis März. Wollte man für diese Monate auch Zeugungszahlen anzeigen, müsste man die entsprechenden Babyzahlen in den Monaten vor Januar 1949 bzw. nach Dezember 2010 kennen. Die liegen aber beim statistischen Bundesamt (noch) nicht vor.

Plädoyer für Datenjournalismus auf 5½ Ebenen

Datenjournalismus in Deutschland ist in der Zwickmühle: Einerseits ist er hoch erwünscht, wird herbeigesehnt, -geredet, und -gelehrt. Morgen startet das netzwerk recherche in Hamburg sogar eigens eine große Fachkonferenz zum Thema. Andererseits ist guter Datenjournalismus in deutschen Medien immer noch eine Rarität. Er wird einfach kaum gemacht. Und wenn, läuft er Gefahr, schick auszusehen, aber journalistisch mangelhaft zu sein.

Begleitend gibt es eine Diskussion um Datenjournalismus, die man recht treffende wohl als verkopft und technikgetrieben bezeichnen könnte. Es wird theoretisch darüber gestritten, was Datenjournalismus eigentlich ist und gleichzeitig wird ein neues Online-Tool nach dem nächsten bejubelt, mit dem sich Daten wunderbar visualisieren ließen, wenn man denn bloß in den Medien Gelegenheit dazu hätte.

Info-Ebenen
Die Story

Wann die Kinder kommen
Wann die Kinder kommen – Zeugung und Geburt hän­gen von der Jahreszeit ab

Daten-Tool: Zeitmaschine

Daten-Tool: Interaktive Zeitmaschine der Geburten und Zeugungsakte
Interaktive Grafik: Geburten und Zeugungsakte nach Monaten und Jahren

Visualisierung

Visualisierung: 1790 Babys im März 2010
Wie viel sind 1790 Babys, die im März 2010 geboren wurden?

Zahlen & Quellen

Alle Daten auf GoogleDocs

Daten-Lupe

Details zu Geburten- und Zeugungsdaten

Diskutieren

Meinungen, Kritik, Hinweise auf Fehler – hier mitreden!

Was fehlt, ist die journalistische Komponente, und vor allem: Eine Debatte anhand von konkreten Beispielen (und zwar journalistisch relevanten, nicht reinen Dummy-Datensätzen für Technik-Tutorials). Mein folgendes Plädoyer für einen Datenjournalismus der 5½ Ebenen versteht sich als Beitrag zu einer konkreteren journalistischen Diskussion.

Es ist der Versuch eines programmatischen Vorschlags, aus welchen Bausteinen gute Datenjournalismus-Stücke bestehen sollen, welche Mindestanforderungen sie erfüllen müssen, und welchem Zweck sie dienen. Die einzelnen Punkte sind nur angedacht, zu vielen Punkten habe ich offene Fragen (ich liste sie unter den einzelnen Ebenen auf – Meinungen dazu sind willkommen!).Die Ideen sind nicht wirklich von mir, sondern geklaut, abgeschaut vor allem in den englischsprachigen Medien, etwa den Stücken der ProPublica-Journalisten.

Um konkret zu bleiben, habe ich versucht, die 5½ Ebenen exemplarisch in meinem Daten-Post Wann die Kinder kommen umzusetzen. Der ist zwar inhaltlich eher ein Leichtgewicht, aber ich wollte ausprobieren, ob und wie das Konzept auch in einem solchen Fall überhaupt funktionieren kann. Die Verlinkungen im Kasten „Info-Ebenen“ führen zu den jeweiligen Bausteinen.

Das Folgende soll eher Stoff für weitere Diskussion sein als ein fertiges Konzept.

Jedes datenjournalistische Stück sollte diese 5½ Informations-Ebenen bespielen (Überblick, im Detail s.u.):

1.  Die Story

2.  (Interaktive) Visualisierung

3.  Daten & Quellen

4.  Daten-Lupe

5.  Journalistischer Hintergrund

5½. Kommentarfunktion (Fehler-Feedback & Kritik)

Je nach Medium und Fall wird die konkrete Umsetzung der einzelnen Ebenen anders ausfallen. Unter bestimmten Bedingungen können die Ebenen 2 (Visualisierung) und 5 (journalistischer Hintergrund) sicherlich wegfallen. Unantastbar sind 1, 3 und 5½. Welche Ebene wann mit gutem Grund wegfallen kann, ist für mich eine offene Frage. Eine wirklich gute und umfassende datenjournalistische Geschichte umfasst aber alle Ebenen, und zwar unabhängig vom Medium.

Wie soll das gehen, z.B. im Print oder im Radio? Zum einen haben die „klassischen“ Medien noch längst nicht ihre kreativen Grenzen ausgelotet, wenn es darum geht, mal eine exakte Quellenangabe zu machen, dem Publikum Korrekturen (an den Daten oder Berechnungen) durch Feedback zu ermöglichen, oder Zusatzinformationen unterzubringen. Im Print gibt es bei entsprechendem Layout – den Willen vorausgesetzt – immer irgendwo Platz für zusätzliche Text- oder Grafikbausteine. Im Radio ist es sicherlich schwieriger. Aber warum nicht mal überlegen, wie man An-, Abmoderation oder innerhalb eines Stücks verschiedene Sprecher-Ebenen nutzen könnte?

Außerdem hat heute eigentlich jedes Medium einen Internetauftritt. Die Trennung zwischen klassischen Medien und ihren Online-Auftritten, die hierzulande immer noch finanziell, ideologisch und emotional gelebt wird ist aber längst künstlich. Die USA machen vor, wie gerade Datengeschichten, für die Off- und Online-Medien kooperieren, den Journalismus deutlich besser machen. Strickmuster: Print nimmt die große Story ins Blatt, steuert Ressourcen, Vertrauens- und Aufmerksamkeitskredit bei und die weiteren Ebenen werden professionell im Web aufbereitet (wo sich zusätzlich auch die Story findet). Das ist das Modell der Zukunft. Anders wird es auch gar nicht gehen, wenn Deutschland journalistisch nicht noch weiter zurückbleiben will.

Ich halte mich bei der folgenden Beschreibung der Ebenen vor allem an die Möglichkeiten des Internets. Wenn ich „Leser“ schreibe, meine ich immer den Mediennutzer generell.

Die 5½ Ebenen im Detail:

1. Ebene: Die Story

Die Story ist die wichtigste und die journalistisch entscheidende Ebene. Sie beantwortet die große, grundlegende Frage, um die sich das Stück rankt, verständlich und einem roten Faden folgend. Sie stellt, oft verbal, einzelne Daten und Fakten in den richtigen (gesellschaftlichen) Zusammenhang, ordnet ein, vergleicht und vor allem: selektiert.

In die Story-Ebene gehört nur eine Auswahl der Daten, die der Journalist bei der Recherche gesammelt hat. Nämlich diejenigen, die zur Beantwortung der Grundfrage nötig sind. Im Extremfall kann sogar nur eine, oder auch gar keine Zahl in der Geschichte ausformuliert werden. Z.B., wenn die Analyse von Daten am Ende nur zu einer entscheidenden Person oder Region geführt hat (in der Daten-Ebene müssen die Daten dann aber präsentiert werden).

Die Story ist die Basisebene. Von ihr aus müssen alle anderen Ebenen ersichtlich und einfach erreichbar sein (etwa wie im Kasten „Info-Ebenen“). Man muss von jedem Baustein wieder einfach zur Story zurück finden (klingt trivial, aber all zu oft verläuft man sich nach ein, zwei Klicks im datenjournalistischen Nirvana).

Wahrnehmungstechnisch ist die Story die oberste Ebene: Das gut sichtbar positionierte Stück, nach allen Regeln der journalistischen Kunst niederschwellig und unterhaltsam aufgebaut. Wer nicht viel Zeit hat, und nur die Story liest, hat die Message trotzdem begriffen.

Alle anderen Ebenen sind Zusatzangebote. Sie müssen von der Story aus leicht zugänglich sein, dürfen sie aber nicht mit direkt sichtbarer Information überlasten (eine Ausnahme sind die wichtigsten Teile der Visualisierung, wenn sie als teil der Story an sich gelten dürfen). Das würde den Leser abschrecken. Im Idealfall ist die Story so gut, dass der Leser danach „freiwillig“ in die zusätzlichen Ebenen eintaucht.

Offene Frage: Kann eine gute Datenvisualisierung für den Leser attraktiver sein als eine gute Story an sich? Und wäre es dann legitim, die tiefer liegende Illustrations-Ebene „nach oben zu ziehen“ und ihr mehr Raum zu geben als der Story?

2. Ebene: (Interaktive) Visualisierung

Visualisierung der Daten ist nicht ausdrücklich ein Muss. Generell wird zu viel, zu schnell und zu beliebig visualisiert. Es besteht die große Gefahr, dass Visualisierung an sich mit dem journalistischen Kern einer Datenstory verwechselt wird.

Wenn visualisiert wird, müssen die Grafiken ein tieferes Verständnis im Sinne der journalistischen Story ermöglichen. Sie unterstützen Klarheit, Einordnung und Orientierung (z.B. durch Karten oder Zeitreihen), also sehr journalistische Anliegen. Sie haben keinen (programmier-)künstlerischen Selbstzweck.

Grafische Orientierung kann auch für einfache Größen oder Mengenverhältnisse eine Extra-Ebene wert sein. Sogar für eine einzelne Zahl, wenn sie z.B unvorstellbar ist (und das sind Zahlen schnell).

Trotzdem muss vor jeder grafischen Illustration abgewogen werden, ob sie überhaupt die richtige Darstellungsform ist. Der Infografik-Theoretiker und Powerpoint-Feind Edward Tufte glaubt z.B., dass Zahlenreihen, wenn sie nicht zu umfangreich sind, in Tabellenform besser wahrnehmbar sind. Auf jeden Fall gehört Visualisierung in die Hände von Profis. Der gemeine Datenjournalist hat einfach nicht genug Zeit, so lange dem Bürohund von Bissantz zuzuhören, bis er jeden infografischen Fehler, den man machen kann, kennt. Dafür gibt es zu viele.

Offene Frage: Ist es für journalistische Produkte sinnvoll, infografische „Fertiglösungen“ wie Google Fusion Tables oder andere Tools zu nutzen, die zwar umsonst und schnell zu programmieren sind, aber nur begrenzt auf die konkrete journalistische Fragestellung angepasst werden können?

3. Ebene: Daten & Quellen

Erste und absolute Mindestanforderung: Eine klare und eindeutig nachvollziehbare Quellenangabe der Daten, die in der Story oder einer der anderen Ebenen benutzt werden. Im Idealfall kann sich jeder allein durch die Quellenangabe die Originalquelle selbst beschaffen (soweit sie frei verfügbar ist).

Konkret muss das Originaldokument korrekt benannt sein. Klingt simpel, aber manchmal sind die Namen „journalistisch“ verkürzt, oder unachtsam falsch angegeben; solche Dokumente sind dann kaum auffindbar. So verweist ZEIT ONLINE unter seinem Daten-Tool zur Lebenserwartung auf eine Quelle Namens „destatis Kohortensterbetafel Version 1 Trend 1871“. Das Dokument des Statistischen Bundesamtes, das die Daten enthält, heißt aber „Generationensterbetafeln für Deutschland, Modellrechnungen für die Geburtsjahrgänge 1896-2009“. Wer keine korrekten Quellen angibt, setzt sich – auch wenn unabsichtlich – dem Verdacht aus, sich der Kontrolle durch Transparenz entziehen zu wollen. Um die geht es aber.

In der Quellenangabe muss auch benannt werden, wie man das Dokument beziehen kann. Ist es im Internet verfügbar, ist ein direkter Link ein Muss. (Auch das ist nicht selbstverständlich, siehe wiederum das Beispiel von ZEIT ONLINE. Ein Quellenlink fehlt, obwohl es ihn gibt.) Kann man die Datensätze z.B. nur per Telefon bei einem Amt erfragen, sollte das erwähnt werden. War die Beschaffung komplizierter, gehören die Informationen darüber in Daten-Lupe (4. Ebene) oder in den journalistischen Hintergrund (5. Ebene). In die Quellenangabe gehört dann ein Link auf die entsprechende Ebene.

Zweite Mindestanforderung: die Daten selbst, die der Story zugrunde liegen, müssen im Internet zur Verfügung gestellt werden. Und zwar in einem von möglichst vielen möglichst einfach lesbaren Format. Faktisch heißt das: Als Excel-Datei oder in einem kompatiblen Format. Die Daten müssen ohne Login und Passwortschutz frei herunterladbar sein.

Es sollen nicht die Originaldaten aus den Originaldokumenten sein, sondern Tabellen, die so weit aufgearbeitet sind, dass ein kritischer Leser die Verbindung dieser Daten zur Story ohne weitere Hilfe nachvollziehen und Fehlberechnungen oder Fehlschlüsse finden könnte. Wenn nötig, sind im „Excel“-Dokument entsprechende Erklärungen anzubringen.

Offene Fragen:

  1. Ist die zunehmende Praxis sinnvoll, Daten bei GoogleDocs online zustellen und sie damit Google anzuvertrauen und von Google abhängig zu sein? Was spräche dafür oder dagegen, die Daten stattdessen auf einem eigenen Server als Excel-Datei zum Download anzubieten? Oder gibt es freie Alternativen zu GoogleDocs?

  2. Sollten in den zur Verfügung gestellten Spreadsheets nur die reinen Daten stehen, oder sollten zusätzlich die (wesentlichen) Berechnungen nachvollziehbar sein, indem die Formelbezüge zwischen den Zellen erhalten bleiben? (Wie exemplarisch im Tabellenblatt „Langjährige Mittel“ der GoogleDocs-Daten zu „Wann die Kinder kommen“)

  3. Sollten auch die Originaldokumente online gestellt werden?

4. Ebene: Daten-Lupe

Auf dieser Ebene werden die Daten genauer unter die Lupe genommen. Hier geht es um Aspekte, die direkt mit den Daten zu tun haben und zu ihrem Verständnis beitragen, die aber weder in der Story (weil zu kompliziert), noch auf der Datenebene (in Excel-Tabelle schwer möglich) ausreichend erklärt werden können.

Konkret könnte hier stehen, mit welcher Unsicherheit die Daten behaftet sind. Dazu könnte man z.B. den Plot aus der Visualisierungs-Ebene wiederholen, allerdings diesmal mit Fehlerbalken und Anmerkungen. Hier wäre aber auch Raum, statistische Analysen der Daten genauer zu erklären, bis hin zu Signifikanzniveaus, Konfidenzintervallen oder Chi-Qudrat-Tests. Jennifer LaFleur von ProPublica macht es vor (runterscrollen bis zur Tabelle „Regression variables“).

Es darf auf dieser Ebene ruhig anspruchsvoll werden, man kann den Leser ja an die Hand nehmen. Wer bis hierhin geklickt hat, der beißt sich auch durch. Zur Not könnte man noch eine weitere Ebene einziehen, auf der meiner Meinung nach sogar Formeln erlaubt sein sollten.

Auch Eigenarten der Daten sollten hier beschrieben werden: Warum gibt es nur diese Daten und keine besseren (Erfassungsgründe, Zuständigkeitswirrwar, Datenschutz,…)? Warum sind diese Daten so alt und trotzdem die jüngsten verfügbaren (Prozessierung der Daten, rechtliche Gründe, Geldmangel,…)? Welche Denkfallen drohen, wenn man die Daten zu unkritisch betrachtet? In diese Richtung gehen die Informationen in den Popups, die ich als Daten-Lupen-Ebene zu den Geburten- und Zeugungsdaten bei „Wann die Kinder kommen“ eingebaut habe.

Offene Frage: Sind Formeln im Datenjournalismus ein Tabu? Gelten hier andere Regeln als im „Nicht-Datenjournalismus“? Auf welcher Ebene sollten sie frühestens auftauchen?

5. Ebene: Journalistischer Hintergrund

Dies ist eigentlich eine Meta-Ebene. Hier steht zum Beispiel, wie die Redaktion das Datenstück bewältigt hat, wie viele Leute daran mitgearbeitet haben, oder wo die Recherche besonders schwierig war. Ein gutes Beispiel liefert die L.A. Times mit How the members were counted, einem Hintergrundtext (plus Video) zu ihrer Geschichte über die demografische Zusammensetzung der Oscar Academy.

Hier gehören alle Aspekte von OpenData hin: Welche Quellen haben die Herausgabe von Daten blockiert? Musste auf die Einhaltung von Informationsfreiheitsgesetzen gepocht oder sogar geklagt werden? Haben die Daten Geld gekostet? Wie viel? Kamen die kostenpflichtigen Daten aus der öffentlichen Hand? Wie ist die Verfügbarkeit der Daten aus der Informationsperspektive des Journalismus zu bewerten?

Auf dieser Ebene kann auch dargestellt werden, welche Bedeutung das aktuelle Stück im Journalismus hat. Zu den Presidential Pardons, einer Geschichte über den präsidialen Erlass der Todesstrafe in den USA, betitelten die Chefs von ProPublica diese Ebene mit The Kind of Journalism That Demands Action. Auch dieses Plädoyer hier nimmt das konkrete Daten-Stück „Wann die Kinder kommen“ als Ausgangspunkt, um allgemeiner über den Datenjournalismus zu räsonieren.

Offene Fragen:

  1. Wie weit sollte die Recherche selbst Teil eines journalistischen Produkts sein? Sollten dafür im Datenjournalismus besondere Regeln gelten?

  2. Sollten Aspekte wie (kein) OpenData und andere Recherchehindernisse besser in der „Daten-Lupe“ beschrieben werden, weil sie direkt mit den Daten zusammenhängen?

5½. Ebene: Kommentarfunktion (Fehler-Feedback & Kritik)

Diese Ebene ist letztlich nicht mehr als ein simples online-Kommentarfeld. Eigentlich hat heute jeder Internetauftritt so eine Funktion, darum zählt sie auch nur als halbe Ebene. Trotzdem scheint sie nicht selbstverständlich zu sein. Das ZEIT ONLINE Daten-Tool zur Lebenserwartung hat zum Beispiel kein Kommentarfeld.

Es gibt dort damit keine Möglichkeit, Fehler zu melden, das Potenzial der Leser an Wissen und Aufmerksamkeit kann nicht genutzt werden. Gerade das gibt der Transparenz von gutem Datenjournalismus aber den Sinn. Kommentarfelder sollten darum auch auf solchen Seiten angebracht sein, wo der Kern der (interaktiven) Visualisierierung angesiedelt ist.

Auch exzellente Datenprojekte wie der Zugmonitor auf sueddeutsche.de oder die Presidential Pardons der Washington Post zusammen mit ProPublica, die beide vorbildlich viele Informations-Ebenen haben, bieten kein Feld für Kommentare unter ihren Daten-Tools. sueddeutsche.de bietet für Hinweise eine eigene E-Mail- bzw. Twitter-Adresse an. Solche Rückmeldungen dürften weitgehend unsichtbar sein. Und der Reiz für die Redaktion ihnen nachzugehen eher gering.

Der Journalismus wird sich daran messen lassen müssen, wie viel Transparenz er schafft, und wie er das Feedback der Leser nutzen kann, um seine Qualität zu steigern. Datenjournalismus ist die perfekte Möglichkeit, anzuerkennen, wie mündig die Leser sind. Sie können nicht nur denken und rechnen, sie tun es auch. Sollte noch ein Fehler im Datenstück sein, irgendjemand findet ihn bestimmt und man kann ihn korrigieren. So viel Wahrheitsanspruch schuldet Journalismus seinem Publikum – als Gegenleistung für dessen Vertrauen.

6 Kommentare… einen eigenen schreiben!

Marcus Anhäuser März 23, 2012 um 12:15

Das ist eine gute und wichtige Zusammenfassung der wichtigsten Bausteine einer Datenjournalismus-Geschichte. Vor allem der Punkt zu den Visualisierungen scheint mir hervorhebenswert:

„Visualisierung der Daten ist nicht ausdrücklich ein Muss. Generell wird zu viel, zu schnell und zu beliebig visualisiert. Es besteht die große Gefahr, dass Visualisierung an sich mit dem journalistischen Kern einer Datenstory verwechselt wird.“

Das hat natürlich auch mit dem verdammten Sog der Visualisierungen zu tun, zumal wenn sie interaktiv ist. Ich kenn das von mir: Gibt es eine Viz, zieht es meinen Blick unweigerlich drauf, der Text ist nur noch zweitrangig und wird, wenn überhaupt, meist nur noch überflogen. Das scheint mir sogar ein generelles Problem bei all der Multimedialität zu sein, auch bei eBooks. Video und Grafiken klauen die Aufmerksamkeit von den Texten weg.

Wenn ich mir die großen datenjournalistischen Geschichten bisher in D ansehe: z.B. Mobilfunkdaten, auch der Zugmonitor, ich wüsste da gar nicht, ob ich die Texte richtig gelesen habe …

Ich weiß nicht, wie das Problem zu lösen ist, aber da muss man vielleicht layouttechnisch ein paar Lösungen finden …

Möglicherweise ist es aber auch der Reiz des Neuen und weil ich mich eben selbst gerade für all diese neuen technischen Dinge interessiere.

Ob es jemals eine datenjournalistische Geschichte geben wird ohne Visualisierung? Da wir Augentiere sind, werden die Seitenmacher möglicherweise immer darauf setzen. Und vielleicht ist so eine Visualisierung auch der Ausdruck dafür, dass sich ein Journalist oder ein Team so richtig in die Daten gekniet hat und das will man auch zeigen …

Wir stehen noch am Anfang …

Antworten

Björn Schwentker März 28, 2012 um 13:28

Lieber Marcus,

Du hast völlig Recht, man muss sich mal an die eigene Nase packen und fragen, was da los ist. Bei mir nämlich dasselbe wie bei Dir: Visualisierungen sind toll, interaktive besonders. Sie ziehen mich in ihren Bann und dann lese ich die Story oft gar nicht mehr. Die Fragen, die man jetzt weiter diskutierten müsste, sind m.E.: Warum ist das so? Ist das überhaupt schlimm? Und wie können Journalisten das nutzen?

Ich weiß die Antworten nicht, würde aber vermuten, dass Du mit den „Augentierchen“ ziemlich Recht hast und wir auf alles Visuelle anspringen. Bei interaktiven Grafiken kommt wahrscheinlich der Reiz des Spielerischen dazu, dem wir kaum widerstehen können. Aber das Spielenwollen ist ja was Gutes. Ich würde dahinter Neugier vermuten, also einen guten Hebel eigentlich, um Leser in eine Story reinzuziehen.

Die Frage ist vielleicht, wie dieser Hebel in Zeiten der (interaktiven) Datenvisualisierung aus journalistischer Sicht geschaffen sein sollte: Wie im Layout eingebaut (wie Du fragst) und wie sehr auf die Story zugeschnitten (automatisch zur journalistischen Frage hinführend).

Letztlich ist das kein neues Problem. Auch bisher haben Journalisten ja mit den „Randelementen“ ihrer Storys „getrickst“, um Leser anzuziehen. Ich habe in meiner Journalistenausbildung dafür mal das Bild eines Trichters eingebläut bekommen, der den Leser in der Breite aller möglichen Leseanreize einfängt und dann quasi automatisch zur Story führt.

Dabei war auch bisher klar, dass die erste Aufmerksamkeit des Lesers nicht der Story selbst (im Sinne des Hauptextes) gilt. Ich habe gelernt, dass der Leser stattdessen die „Randelemente“ in dieser Reihenfolge anschaut (und bei jedem Element entscheidet, ob er bleibt oder lieber was anderes liest):

1. Überschrift
2. Bild
3. Bildunterschrift
4. Teaser des Haupttextes
5. Erster Satz des Haupttextes
… und dann evtl. der Haupttext…

Irgendwie hat es ja bisher ganz gut geklappt, dass diese Elemente in die Story reinziehen. Warum sollte es jetzt anders sein, nur weil wir Daten visualisieren, und zwar evtl. interaktiv? Das ist doch nur ein weiteres Element, bzw. das Element „Bild“, nur etwas verändert.

Ein Grund, warum der Weg zur Story oft bei der Visualisierung endet, ist vielleicht, weil die Visualisierungen oft wie eigenständige Geschichten mit einer eigenen URL verkauft werden. So eine URL lässt sich wunderbar übers Internet verbreiten und sie bringt schön viele Klicks für die Online-Medien (die diese Klicks brauchen, weil bisher ihr Geschäftsmodell darauf aufbaut). Von den Seiten der Visualisierungen findet man dann den Link zur Story oft kaum.

Alternativ-Vorschlag: Die Visualisierungen nicht als eigene Seite bauen, sondern als Overlay über der Webseite mit der eigentlichen Story. Also in so einem Fenster wie diesem hier. Wenn man es zumacht, steht man automatisch auf der Ebene der Story, die schon während des Spielens mit der Grafik dahinter hervorlugt. Letztlich könnte man alle Info-Ebenen so über die Story legen. Die Story bliebe dann die Basis, der Ausgangspunkt.

Links zu so einer Overlay-Grafik müsste man eigentlich trotzdem übers Internet verbreiten können. Das könnte die URL der Story-Seite sein plus ein am Ende angehängter Parameter-Code, der automatisch das Grafik-Overlay startet. Dazu muss der Leser zwar Javascript installiert haben. Aber das muss er für interaktive Grafiken sowieso.

Ich bin nicht sicher, wie gangbar das für Online-Medien technisch umsetzbar wäre. Um die Datenvisualisierung wirklich gut ins journalistische Gesamtprodukt einzubauen, braucht es aber ohnehin wahrscheinlich noch etwas mehr Gehirnschmalz…

Viele Grüße
Björn

Antworten

Mirko Lorenz März 23, 2012 um 13:03

Zur Frage:
Was spräche dafür oder dagegen, die Daten stattdessen auf einem eigenen Server als Excel-Datei zum Download anzubieten? Oder gibt es freie Alternativen zu GoogleDocs?

Ganz interesant ist hier das von der Chicago Tribune im Rahmen der Knight News Challenge entwickelte Tool Project Panda. Es löst ein Problem, das viele Redaktionen noch gar nicht als solches wahrnehmen: Ein Sammelbecken für aufbereitete Datensätze, inklusive der Möglichkeit, später alle Datensätze zu durchsuchen. Wenn Redaktionen anfangen, kritischer und häufiger mit Daten umzugehen, wird schnell die Suche nach exakt so einem Tool losgehen.

http://alpha.pandaproject.net/#login

Es gibt einige andere Optionen, z.B. das DAM (Document Asset Management) Ressource Space, hier ist aber der Umbau-Aufwand schon wieder etwas höher als bei Project Panda.

http://www.resourcespace.org/

Antworten

Björn Schwentker März 28, 2012 um 12:23

Lieber Mirko Lorenz,

danke für die Hinweise. Interessant finde ich vor allem das PANDA-Projekt, weil man einerseits nicht nur die Daten selbst als CSV-Datei hinterlegen kann, sondern sowohl die einzelnen Dateien, als auch alle Dateien auf einmal nach Inhalt und Tags durchsuchbar sind.

Toll im Sinne der Transparenz wäre es, ein Tool zu haben, das die Daten beinhaltet, gleichzeitig aber auch die Rechenschritte nachvollziehbar macht, die evtl. hinter der Story oder der Visualisierung stehen. Eine Option wäre, die entsprechenden Formelbeziehungen zwischen den Zellen in einem Google Spreadsheat mit einzubauen (Viele löschen sie offenbar. Warum eigentlich?). Aber dann ist man eben an Google gebunden.

Als ich am Wochenende in einem sehr lehrreichen Workshop des Daten-Visualisierers Gregor Aisch zur freien Statistik-(Programmier-)Sprache R auf der nr-Konferenz zum Datenjournalismus saß, fragten wir uns, ob man R nicht perfekt nutzen könnte, um seine Daten und vor allem seine Rechenschritte transparent nachvollziehbar zu machen.

Auf einer entsprechenden Informationsebene würde man dann den R-Code veröffentlichen, den man genutzt hat. Jeder, der das freie Tool R heruntergeladen hat, könnte per Copy & Paste den Code einfügen und Schritt für Schritt nachvollziehen, wie die Original-Daten rechnerisch verändert wurden. Da R auch visualisieren kann, könnten Zwischenergebnisse sogar grafisch gezeigt werden. Und der Code könnte zur besseren Verständlichkeit ausführlich kommentiert werden.

Excel und Spreadsheats wären dann außen vor und sicher kann so einen Code nicht jeder nachvollziehen. Aber die, die es können, würden schnell eventuelle Fehler entdecken. Das wäre bei aufwändigen Projekten doch vielleicht lohnend? Je relevanter das Thema, desto lohnender.

Was ich nicht weiß: Hat jemand so eine „R-Ebene“ schonmal im Zusammenhang mit einem datenjournalistischen Projekt veröffentlicht? Und wenn nein: Sollte man das vielleicht mal exemplarisch ausprobieren & vormachen?

Viele Grüße
Björn

Antworten

Christina Elmer März 24, 2012 um 15:57

Danke für diesen Diskussionsanstoß! Was ich genauso sehe: Die Story gehört in den Mittelpunkt. An der Story hängt sich auf, wie sie am besten präsentiert werden kann. Und allein eine interaktive Grafik macht noch keinen Journalismus.

Visualisierungen sollten auch meiner Meinung nach primär die Geschichte unterstützen. Trotzdem kann es total wichtig sein, zudem noch eine interaktive Grafik dazu zu stellen, um die Daten zugänglich zu machen und Crowdsourcing zu ermöglichen. Damit Leser den Datensatz selbst erschließen und spannende Punkte finden können, auch wenn sie mit dem Rohdatensatz nicht so gut umgehen könnten. Aber nur um zu zeigen, dass es geht – das wäre dann eher Grafikdesign als Journalismus. Auch schön, aber anders relevant.

Antworten

Lorenz März 26, 2012 um 13:28

Für das, was ich unter Datenjournalismus verstehe, ist interaktive Visualisierung eine wesentliche Bedingung für das Genre – und nicht nur optional. Sonst bräuchten wir den Begriff nicht. Dass es eine journalistische Sorgfaltspflicht und Ethik gibt, ist ja nichts Neues. Auch nicht, dass die Geschichte oder ein Thema im Mittelpunkt des Journalismus steht. Warum das im Zusammenhang des Datenjournalismus betont werden muss, erschließt sich mir nicht.

Vielleicht ist der Begriff Datenjournalismus einfach zu verkürzt – der data-driven-journalism im Englischen macht es schon deutlicher: Es geht um datengetriebenen Journalismus; da steckt allein schon im Begriff Bewegung – und der kann nunmal im statischen Print oder reinem Text sowie linearem Audio/TV nur bedingt funktionieren.

Es geht um große Datenmengen. Damit journalistisch zu arbeiten, wird als Computer-Assisted-Reporting CAR bezeichnet. Das Format, in denen Daten in herkömmlichen Medien repräsentieren werden, fasse ich als Infografik (Diagramme & Co.).

Online dagegen können wir Datenjournalismus machen, weil wir auf Datenbanken zugreifen können. Mit deren Hilfe betreiben wir hier Journalismus und nutzten dafür dynamische Visualisierungen als Zugang zu den großen Datenmengen, der vom Betrachter individuell gesteuert werden kann.

Das heißt nicht, dass es andere Genre nicht mehr braucht. Sondern investigativer Journalismus, Reportagen etc. können rund um eine interaktive Grafik veröffentlicht werden. Oder das datenjournalistische Produkt steht als alternativer Zugang zu einer Geschichte.

Antworten

Kommentar schreiben


(Bitte beachten Sie die Hinweise und Regeln zu Kommentaren.)

1 trackback