#5/ 2021
15/20

Der Mythos vom Roboterjournalismus

Mensch oder Maschine? Software für die Textgenerierung hat gewaltige Fortschritte gemacht. Eine kritische Auseinandersetzung mit dem Begriff des Roboterjournalismus.

Hat diesen Text ein Mensch oder eine Maschine geschrieben? Nicht immer wissen wir es. Denn Software für die Textgenerierung hat gewaltige Fortschritte gemacht. Der Mensch bleibt trotzdem in der Verantwortung. Eine kritische Auseinandersetzung mit dem Begriff des Roboterjournalismus. 

Ausgerechnet in einem Beitrag über rassistische Erfahrungen unterlief MSN Anfang Juni ein grober Fauxpas. Die Nachrichtenplattform von Microsoft bebilderte einen Erfahrungsbericht der britischen Sängerin Jade Thirlwall mit einem Foto ihrer Bandkollegin Leigh-Anne Pinnock. Beide haben eine gemischte ethnische Herkunft. Thirlwall wandte sich daraufhin entrüstet in einem Instagram Post an die Plattform. Sie erklärte, warum die Verwechslung sie verletze und mahnte eine größere redaktionelle Sorgfalt an.

Was sie nicht wusste: Für die Bildauswahl war kein Mensch, sondern eine Software verantwortlich. Eine künstliche Intelligenz stellt die kuratierten Inhalte auf der Plattform bereit. Der Guardian 1 berichtete zuerst über den Vorfall und verwies dabei auf die eine Woche zuvor durchgesickerten Pläne von Microsoft, ein Dutzend menschliche Redakteure nicht weiter zu beschäftigen.

MSN ist kein Einzelfall. In den vergangenen Jahren ist neben Machine-Learning-basierten Verfahren der Künstlichen Intelligenz auch die Kommerzialisierung von Technologien zur Generierung natürlicher Sprache (engl. Natural Language Generation, abgekürzt NLG) weit vorangeschritten. Als Folge davon lesen wir immer mehr Texte, die ein Algorithmus erstellt, selektiert oder kuratiert hat. Wir interagieren mit Chat-Bots und sprechen mit digitalen Assistenten.

Der Trend zu generierten Nachrichten wird im deutschsprachigen Raum als Roboterjournalismus2 bezeichnet. Der Begriff weckt jedoch falsche Erwartungen und kaschiert damit eine Reihe von Herausforderungen dieser Entwicklung.

Der Roboter ist nur eine Software

Der Roboter im Roboterjournalismus suggeriert, dass dahinter ein wie auch immer geartetes nichtmenschliches Wesen mit einer Agenda steht. Man könnte sich eine Blechkiste am Schreibtisch vorstellen, die eingehende Informationen sichtet und einen Bericht in die Tasten tippt. Tatsächlich verwendete die New York Times genau dieses Bild als Aufmacher für den Artikel „Rise of the Robot Reporter“ 3.

Die Realität ist aber weit davon entfernt. Mit Robotern haben die NLG-Systeme nichts zu tun. Sie sind reine Software-Systeme, die sehr geschickt natürliche Sprache verarbeiten können. Dabei kommen in einfachen Varianten Template-basierte Ansätze zum Einsatz, die man sich vereinfacht wie Lückentexte vorstellen kann. Fortgeschrittenere Varianten nutzen Machine-Learning-Verfahren, bei denen ein Modell auf Basis von Trainingsdaten erstellt wird.

In beiden Fällen ist der Mensch nicht aus der Gleichung entfernt. Es gibt keinen Robo-Journalisten, der eins zu eins den Job eines Menschen übernimmt. Vielmehr liegt eine neue Produktionssituation vor. Die Software generiert zwar Texte, aber der Mensch bestimmt die Funktionsweise der Software.

Es sind Menschen, die die Systeme für automatisierte Texterstellung entwickeln. Und es sind Menschen, die Templates und Regeln definieren und Modelle auf Basis von menschlich erstellten Trainingsdaten erstellen.

Gute Vorsätze und zweifelhafte Umsetzungen

Als journalistische Werkzeuge können NLG- und KI-Systeme zur Automatisierung redaktioneller Prozesse durchaus sinnvoll und nützlich sein. Folgende Punkte gehören zu den am meisten angeführten Vorteilen:

  • NLG-Systeme können stark repetitive, deskriptive, wenig anspruchsvolle Texte übernehmen, die sowieso kein Mensch schreiben will. Dazu gehören Wetterberichte, Börsennachrichten und die Berichterstattung von Sportveranstaltungen.
  • Der Einsatz von NLG-Systemen ermöglicht die Erstellung von Texten, die sonst nie geschrieben worden wären, da keine Redaktion die notwendigen Ressourcen besitzt – zum Beispiel Berichte über lokale Sportereignisse, zu denen nie ein Redakteur gefahren wäre.
  • Journalisten bekommen durch NLG-Systeme die Zeit, den wirklich spannenden und relevanten Themen nachzugehen. Stumpfsinnige Fleißarbeit ließe sich automatisieren.

Diese Ziele sind an sich gut nachvollziehbar und werden sicher auch von vielen Journalisten als attraktiv empfunden. Wie das eingangs erwähnte Beispiel zeigt, sieht die Situation in der Praxis jedoch nicht immer so rosig aus:

  • Software für die automatisierte Content-Erstellung und -Kuratierung wird verwendet, um Personal einzusparen und Kosten zu drücken.
  • Automatisiert erstellter Content ist nicht immer akkurat und enthält Fehler.
  • In die Software schleichen sich Vorurteile ein, die potenziell massiv skalieren. Die Software produziert schließlich nicht einen Text, sondern tausende Texte.

Für den letzten Aspekt hat Cathy O’Neil im Zusammenhang mit defizitären datengetriebenen Entscheidungssystemen die schöne Bezeichnung Weapons of Math Destruction (abgekürzt WMD) geprägt. Im gleichnamigen, 2016 erschienen Buch, in dem sie eine Reihe zweifelhafter datenbasierter Entscheidungssysteme seziert (u. a. Recruiting-Software für die automatisierte Bewertung von Bewerbern), fasst sie auf Seite 3 zusammen:

The math-powered applications powering the data economy were based on choices made by fallible human beings. Some of these choices were no doubt made with the best intentions. Nevertheless, many of these models encoded human prejudice, misunderstanding, and bias into the software systems that increasingly managed our lives.4

Ganz ähnlich verhält es sich potenziell auch bei NLG-Software für die Generierung redaktioneller Inhalte. Die Auswirkungen mögen nicht so drastisch sein wie eine zweifelhafte automatisiert getroffene Entscheidung über die Kreditwürdigkeit einer Person. Dennoch stellt sich die Frage, inwiefern es bedenklich ist, dass eine Nachrichtenplattform mit Millionen von Lesern redaktionelle Prozesse einer offensichtlich nicht ausgereiften Software überlässt.

Journalismus ist mehr als ein erstellter Text

Wie kann also ein verantwortungsvoller Umgang mit den neuen Möglichkeiten aussehen? Oder anders gefragt: Wie viel Journalismus – im Sinne einer gesellschaftlichen Funktion, die ethischen Standards folgt – steckt wirklich im Roboterjournalismus?

Der Pressekodex des Deutschen Presserats hält beispielsweise in Ziffer 1 fest:

Die Achtung vor der Wahrheit, die Wahrung der Menschenwürde und die wahrhaftige Unterrichtung der Öffentlichkeit sind oberste Gebote der Presse.

Weiter heißt es in Ziffer 2:

Zur Veröffentlichung bestimmte Informationen in Wort, Bild und Grafik sind mit der nach den Umständen gebotenen Sorgfalt auf ihren Wahrheitsgehalt zu prüfen und wahrheitsgetreu wiederzugeben. (Ziffer 2)

Wenn Journalisten Texte schreiben, ist die Situation klar. Sie können sorgfältig abwägen, welchen Quellen sie vertrauen und welchen nicht und was sie wie in welchen Nuancen darstellen. Sie sind dazu angehalten, Sorgfalt walten zu lassen und sie verantworten den Wahrheitsgehalt.

In der neuen Produktionssituation ist die Lage deutlich komplexer. Es gibt keine klare Zuordnung von einem generierten Text zu einem menschlichen Autor. Die Software wiederum versteht nicht, was sie konstruiert. Sie kann die erhaltenen Daten und die Regeln für die Konstruktion nicht kritisch hinterfragen - höchstens durch den Abgleich mit anderen Regeln und Datensätzen. Insofern vermittelt der Begriff Roboterjournalismus ein arg reduziertes Bild von Journalismus, das nur die Content-Produktion umfasst und kritische Auseinandersetzungen mit Inhalten vollständig ausblendet.

Die Frage der Verantwortung verlagert sich bei der algorithmischen Content-Erstellung jedoch von einem Autor auf ein komplexes System. Daraus ergeben sich eine Reihe von Fragestellungen wie unter anderem:

  • Wie lässt sich für das NLG-System sicherstellen, dass es Texte mit der gebotenen Sorgfalt generiert?
  • Welche Pflichten obliegen den Betreibern eines solchen Systems?
  • Welche Anforderungen gelten für die Ausgangsdaten? Wie kann zum Beispiel sichergestellt werden, dass sie keinen Bias enthalten, der bestimmte Gruppen benachteiligt?
  • Wie lässt sich für die generierten Texte prüfen, inwieweit sie wahrheitsgetreu sind? Wie könnte eine Art Qualitätssicherung für den generierten Output aussehen?

Ansätze für eine Regulierung sind in Arbeit

Abschließend überzeugende Antworten auf die oben genannten Fragen gibt es bislang noch nicht. Erste Ansätze werden aber bereits diskutiert. Dazu gehört zum Beispiel der Ruf nach einer Kennzeichnungspflicht. So monierte ver.di zum Beispiel 2018 in der Stellungnahme zur Online-Konsultation zur nationalen Strategie Künstliche Intelligenz der Bundesregierung5, dass in der KI-Strategie bislang keine „Kennzeichnungspflicht für Chatbots sowie von Systemen generierten Nachrichten/Medieninhalten“ vorgesehen war. Eine größere Transparenz darüber, welche Inhalte maschinell erzeugt worden sind, wäre sicher begrüßenswert. Das hätte womöglich auch Auswirkungen auf das Leseverhalten.

Die Datenethikkommission der Bundesregierung setzte sich in ihrem Gutachten vom Oktober 20196 ausführlich mit den Auswirkungen algorithmischer Systeme auf den Einzelnen und die Gesellschaft auseinander. Sie empfiehlt einen risikobasierten, in fünf Stufen gegliederten Regulierungsansatz. Die vorgeschlagenen Maßnahmen reichen von keiner Regulierung bei Anwendungen ohne oder mit geringem Schädigungspotenzial (Stufe 1) bis hin zu teilweisen oder vollständigen Verboten für Anwendungen mit unvertretbarem Schädigungspotenzial (Stufe 5).

Auf europäischer Ebene wird ebenfalls ein Regulierungsrahmen diskutiert. Mit dem Weißbuch Zur Künstlichen Intelligenz – ein europäisches Konzept für Exzellenz und Vertrauen7 hat die Europäische Kommission im Februar 2020 eine Konsultation für ein europäisches KI-Konzept gestartet.

Wann es verbindliche Spielregeln für den Einsatz algorithmischer Systeme geben wird, steht in den Sternen. Bis dahin bleibt zu hoffen, dass Unternehmen und Institutionen, die die neue Technologie einsetzen, verantwortungsvoll und transparent damit umgehen. Ansonsten drohen nicht nur Irritationen in der Leserschaft, sondern ernsthafte Reputationsschäden. Auf Roboter lässt sich die Verantwortung nicht schieben.

 Der Artikel erschien zuerst auf dem Blog Textarbyte des Autors.

Quellen:

  1. https://www.theguardian.com/technology/2020/jun/09/microsofts-robot-journalist-confused-by-mixed-race-little-mix-singers
  2. Im englischsprachigen Raum kursieren neben robot journalism auch die Begriffe automated journalism und AI journalism.
  3. https://www.nytimes.com/2019/02/05/business/media/artificial-intelligence-journalism-robots.html
  4. Cathy O’Neill (2016). Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. New York, Crown
  5. https://www.ki-strategie-deutschland.de/home.html?file=files/downloads/Stellungnahmen_Handlungsfeld9.pdf
  6. https://www.bmi.bund.de/SharedDocs/downloads/DE/publikationen/themen/it-digitalpolitik/gutachten-datenethikkommission.pdf
  7. https://ec.europa.eu/info/sites/info/files/commission-white-paper-artificial-intelligence-feb2020_de.pdf

Der Autor

Dr. Sebastian Lorenz ist Diplom-Informatiker und promovierter Geisteswissenschaftler. Als Gründer von Textarbyte mit Sitz in Bergisch Gladbach unterstützt er Unternehmen bei der Kommunikation IT-bezogener Themen. Seine Arbeitsschwerpunkte sind neben der internen und externen Kommunikation von Digitalisierungsinitiativen und IT-Projekten die Bereiche Wissensmanagement und Software-Dokumentation.