#7 / 2018
7/13

Warum Algorithmen den Menschen brauchen –

und umgekehrt

Wie sehr algorithmische Entscheidungssysteme den Alltag vieler Menschen heute schon durchdringen, sieht man beispielsweise in New York. Dort bestimmt Software, auf welche weiterführende Schule Kinder kommen (Tullis, 2014), wo die Polizei wie häufig Streife fährt und kontrolliert (Brennan Center for Justice, 2017), ob Lehrer Karriere machen (O’Neil, 2017), welche Gebäude vorrangig auf Brandschutz inspiziert werden (Heaton, 2015), wer des Sozialleistungsbetrugs verdächtigt wird (Singer, 2015). 

Solche Systeme sind nicht nur in New York im Einsatz: Bis zu 70 Prozent der Stellenbewerber in Großbritannien und den Vereinigten Staaten werden zuerst von automatisierten algorithmischen Verfahren bewertet, bevor ein Mensch ihre Unterlagen sieht (Weber und Dwoskin, 2014). In Deutschland prognostiziert Software in einigen Städten das Einbruchsrisiko sektorbezogen, damit Polizeistreifen zielgerichtet eingesetzt werden. Bei Zollanmeldungen, der Prüfung von Steuererklärungen oder der grenzüberschreitenden Vollstreckung von Geldsanktionen der EU sind in Software automatisierte Risikoanalysen im Einsatz. 

Befürworter solcher algorithmischen Systeme führen eine Reihe von Chancen an, die sich grob in diese vier Bereiche gliedern lassen (vgl. Lischka & Klingel, 2017, S. 37 f.):

  • Fairness: Fälle nicht aufgrund gesellschaftlicher unangemessener Kriterien unterschiedlich behandeln.
  • Konsistenz: Ähnliche Fälle nicht aufgrund externer Faktoren (z. B. Hunger, Müdigkeit, Stimmung) unterschiedlich bewerten.
  • Umgang mit Komplexität: Muster, relevante Merkmale auch in großen Datenmengen mit vielen Zusammenhängen erkennen.
  • Effizienz: Mit leistbarem Aufwand (zeitlich, finanziell) zu Ergebnissen kommen.

Zur Illustration jedes Chancenbereichs ein Beispiel: 

Fairness: Bloß weil ein Mensch entscheidet, ist das Ergebnis nicht per se besser. Wer zum Bewerbungsgespräch eingeladen wird, bestimmen in Deutschland immer noch mehrheitlich Menschen. Wir wissen aus Studien: In der Summe entscheiden sie unfair. Zur Veranschaulichung des Status quo: „Um eine Einladung zum Vorstellungsgespräch zu erhalten, muss ein Kandidat mit einem deutschen Namen durchschnittlich fünf Bewerbungen schreiben, ein Mitbewerber mit einem türkischen Namen hingegen sieben“ (Schneider, Yemane und Weinmann 2014: 4). Gut gestaltete Technik könnte hier unsere Gesellschaft fairer machen – wenn Diskriminierung anhand von Merkmalen wie Geschlecht, fremd klingenden Namen, Bewerberfotos oder offen kommunizierten Behinderungen ausgeschlossen werden kann. 

Konsistenz: Algorithmenbasierte Prognosen arbeiten zuverlässig die vorgegebene Entscheidungslogik in jedem Einzelfall ab. Das kann ein Vorteil sein. Im Gegensatz zu Menschen ist Software zum Beispiel nicht tagesformabhängig und wendet nicht in Einzelfällen willkürlich neue, unter Umständen ungeeignete Kriterien an. Eine Untersuchung von 1112 Urteilen über die Aussetzung von Strafen zu Bewährung in Israel ergab, dass die Wahrscheinlichkeit einer für den Angeklagten positiven Entscheidung am Anfang des Tages und nach Essenspausen größer ist als zu anderen Zeiten (Danziger, Levav und Avnaim-Pesso 2011: 6890).

Umgang mit Komplexität: Software kann größere Datenmengen analysieren als Menschen. So lassen sich Muster finden, die einige Problemen schneller, präziser oder günstiger lösen können. Algorithmische Systeme können ihren Output günstig personalisieren und sie lassen sich neuen Umständen leichter anpassen als analoge Strukturen. Das in New York eingesetzte algorithmische System zur Schülerverteilung senkte zum Beispiel im ersten Jahr nach Einführung die Anzahl der nicht einer weiterführenden Schule zugeteilten Schüler von 31.000 auf 3000 (New York City Independent Budget Office, 2016).

Effizienz: Maschinen werten große Datenmengen in der Regel günstiger und schneller aus, als Menschen das vergleichbare Pensum verarbeiten würden. Ein Beispiel dafür sind Analysen der regionalen Verteilung von Kaufkraft und Vermögen in ländlichen Regionen Afrikas. Diese Informationen sind relevant für den zielgerichteten Einsatz von Entwicklungshilfe an den Orten mit dem größten Bedarf. Bislang sind Kaufkraft-Informationen aber kaum verfügbar oder nicht aktuell. Denn bisher beruhen diese Daten auf Umfragen vor Ort. Solche Umfragen in ländlichen Regionen Afrikas sind aufwendig, teuer und daher selten: Zwischen 2000 und 2010 haben 39 von 59 Staaten in Afrika weniger als zwei solcher Umfragen durchgeführt (Patel 2016). Daher suchen Forscher andere Datenquellen, die Aussagen über die Armutsverteilung auf Dorfebene ermöglichen. Satellitenaufnahmen bei Nacht sind öffentlich verfügbar, allerdings ist die Aussagekraft in Regionen geringer, in denen viele Menschen in extremer Armut (nach Definition der Weltbank 2015) leben: Wo extreme Armut herrscht, ist es nachts fast durchweg dunkel, die Abstufungen sind sehr gering (Jean et al. 2016: 790). Deshalb nutzt das Forscherteam des Sustainability and Artificial Intelligence Lab der Stanford University Satellitenfotos bei Tag und Nacht sowie vorliegende Umfrageergebnisse zu Pro-Kopf-Ausgaben und Haushaltsvermögen. Anhand dieser Daten trainiert es in mehreren Schritten künstliche neuronale Netzwerke. Die Software hat zum Beispiel herausgearbeitet, dass die Materialbeschaffenheit (Metall, Stroh, Erde, Gras) von Dächern mit der Kaufkraft zusammenhängt (Jean et al. 2016: 791).

Diese Beispiele dürfen nicht zu dem gefährlichen Kurzschluss führen, der leider die Debatte über sogenannte „künstliche Intelligenz“ und algorithmische Entscheidungssysteme prägt: Die Technik macht’s. Die Maschine entscheidet besser als der Mensch (oder umgekehrt). Das ist Unfug. Denn Algorithmen sind Menschenwerk und es kommt nicht auf „die“ Technik an, sondern auf viele Faktoren, deren Zusammenwirken man in jedem Einzelfall prüfen muss. Der Einsatz algorithmischer Entscheidungssysteme garantiert nicht, dass die Chancen tatsächlich verwirklicht werden – es kommt darauf an, ob ein sinnvoller Einsatz möglich ist und wie er gestaltet werden muss. Hier vier relevante Schritte beim Design algorithmischer Systeme (vgl. für ein Prozessmodell mit allen Phasen: Zweig, 2018), bei denen Menschen (!) Fehler machen können:

  • Zielsetzung: Was ist das Optimierungsziel des Systems? Ist es gesellschaftlich angemessen? Ist es relevant?
  • Operationalisierung & Datenauswahl: An welchen messbaren Eigenschaften wird das Ziel operationalisiert? Besonders heikel ist das bei sozialen Konzepten wie „guten“ Arbeitsnehmern oder „relevanten“ Freunden. 
  • Einbettung in die Gesellschaft: Algorithmische Systeme werden von Institutionen eingesetzt. Und deren Institutionslogik kann dazu führen, dass die Verfahren völlig anders genutzt werden, als es die Entwickler geplant haben. Das ist kein technisches, sondern ein soziotechnisches Problem.
  • Evaluation: Ob ein ADM-Prozess ein adäquates Konzept von Fairness verwendet, wird häufig nicht überprüft. Wenn Logik und Natur eines Algorithmus geheim gehalten werden, ist dies sogar unmöglich. Ohne Überprüfung durch unabhängige Dritte kann keine informierte Debatte über Chancen und Risiken eines spezifischen ADM-Prozesses geführt werden-

Die möglichen Fehlerquellen in diesen Prozessschritten erläutere ich im Folgenden an Beispielen: 

Zielsetzung: Bonitätsprognosen haben in vielen US-Bundesstaaten Einfluss auf die Kosten von Autoversicherungen. Ein unterdurchschnittlicher Scoring-Wert kann Prämien um bis zu 1301 Dollar im Jahr verteuern – unabhängig vom Fahrverhalten (Consumer Reports 2015). In einigen Staaten können die Preisaufschläge für schlechte Bonitätsprognosen höher ausfallen als für Verurteilungen wegen Alkohols am Steuer (O’Neil 2016: 149). Wenn jemand Unfälle verschuldet hat, aber immer pünktlich seine Rechnungen begleicht, zahlt er weniger als Einkommensschwache mit perfektem Fahrverhalten. Bonität genießt Priorität. Dieses Optimierungsziel haben Menschen festgelegt.

Operationalisierung: Bei der Vorauswahl von Bewerbern für Einstellungsgespräche können auf den ersten Blick sinnvoll erscheinende Messbarmachungen unerwünschte Folgen haben. So wurde zum Beispiel in einem Vorauswahlverfahren abfragt, wie lange der Kandidat die Anfahrt zum neuen Arbeitsort einschätzt. Diese Informationen nutzte ein Dienstleister von Xerox Services (US-Callcenter-Betreiber, der 30.000 Bewerber jährlich einstellt) zur automatisierten Aussonderung von Kandidaten: Wer zu lange Anfahrtswege hatte, wurde abgelehnt, weil Mitarbeiter mit langen Wegen statistisch eher kündigen als andere. Nach einer Prüfung stricht Xerox Services dieses Kriterium, weil es systematisch Menschen aus ärmeren Vierteln mit vorrangig schwarzer Bevölkerung diskriminieren könnte, die sich Wohnungen in der Nähe des Unternehmens nicht leisten können. Es ist möglich, dass Gerichte diese Praxis als verbotene Diskriminierung nach Hautfarbe werten würden, sollte jemand klagen (Weber und Dwoskin, 2014).

Einbettung in die Gesellschaft: Die Polizei in Chicago ordnet seit 2013 mithilfe eines ADM-Prozesses vorbestrafte Bürger aus Polizeidatenbanken einer sogenannten „Strategic Subject List“ (SSL) zu. Etwa 1400 vorbestrafte Bürger stehen auf der SSL-Liste in Chicago. Jeder erhält einen Scoringwert zwischen 1 und 500. Je höher der Wert, desto höher das Risiko, zukünftig als Täter oder Opfer in eine Schießerei oder einen Mord verwickelt zu sein (Johnson 2016: 1). Die Strategic Subject List wurde als Werkzeug für die Prävention entwickelt. Doch für die geplante Präventionsarbeit auf Basis der SSL-Prognosen fehlten in Chicago die personellen Ressourcen. Das vorhandene Personal nutzt stattdessen entsprechend der bestehenden Institutionslogik als Ermittlungswerkzeug (Saunders, Hunt, Hollywood, Criminol und Org 2016: 1). So kann die Software den Blick der Ermittler bei der Suche nach Verdächtigen auf die Personen auf der Risikoliste verengen. Solche Mechanismen bedrohen die Unschuldsvermutung und drohen, die Wirksamkeit der Polizeiarbeit zu gefährden. Die SSL ist nicht als Werkzeug für die Fahndung nach Taten entwickelt worden. Das Beispiel zeigt, dass die Güte von ADM-Prozessen auch an der operativen Einbettung in Institutionen und vor allem der tatsächlichen sachgerechten Nutzung zu messen ist.

Evaluation: Wie algorithmische Systeme tatsächlich wirken, ob sie die gesetzten Ziele erreichen und welche Nebenfolgen das hat, muss unabhängig untersucht werden. Ein bekanntes Beispiel für die Analyse der Umsetzungsqualität ist die 2016 veröffentlichte Untersuchung der US-Rechercheorganisation Propublica zur Qualität algorithmischer Rückfallprognosen, die in vielen US-Bundesstaaten vor Gericht genutzt werden. Die Software war zu diesem Zeitpunkt seit Jahren im Einsatz, doch zuvor hatte niemand überprüft und öffentlich gemacht, welche Fehler auftreten. Kernergebnis der Propublica-Recherche: Die Art der Fehlprognosen unterscheidet sich zwischen schwarzen und weißen Personen. Der Anteil Schwarzer mit hoher Rückfallprognose aber ohne Rückfall binnen zwei Jahren ist doppelt so hoch wie der Weißer (Angwin, Kirchner, Larson, & Mattu, 2016, S. 2). Erst diese Rechercheergebnisse brachten eine Diskussion über Fairnesskriterien der seit Jahren eingesetzten Systeme in Gang.

Die Beispiele zeigen: Gefährlich wird es vor allem dann, wenn algorithmische Entscheidungssysteme unreflektiert entwickelt und umgesetzt werden. Drei Fragenkomplexe sind zu lösen, damit in Deutschland nicht die dieselben Fehlentwicklungen erlebt, wie sie in den USA zu beobachten sind:

  • Wie versichern wir uns der Angemessenheit ihrer Ziele, bevor Systeme im Einsatz sind? Antworten könnten eine Professionsethik, Ethikkommissionen und unabhängige Wächter sein.
  • Wie überprüfen wir, ob algorithmische Systeme die definierten Ziele tatsächlich erreichen? Hier könnten in anderen Bereichen erprobte Institutionen wie die Finanzaufsicht, die Lebensmittelkontrolle oder der TÜV eine Inspiration sein.
  • Wie sichern wir die Vielfalt von Verfahren, Betreibern und Zielen, um Innovation und Gemeinwohl zu stärken? Hier ist der Staat auch als progressiver Gestalter gefragt. Er braucht einen wettbewerblichen Rahmen, der die Vielfalt algorithmischer Systeme sichert. Helfen könnte Förderung gemeinwohlorientierter Software und Forschung.

Die Antworten darauf können nur Menschen geben. Denn bei allem Fortschritt in einigen Einsatzgebieten schwacher künstlicher Intelligenz ist eine menschliche Fähigkeit unerreicht: Wenn Intelligenz die Kompetenz ist, komplexe Ziele zu erreichen, dann umfasst menschliche Intelligenz die Kompetenz, komplexe Ziele zu definieren, die Gesellschaft davon überzeugen, dass es die richtigen sind und Werkzeuge zur Lösung zu erfinden – seien es Institutionen wie Geld oder Gesetze, Strukturen wie die Judikative oder eben Software.

Dieser Beitrag beruht auf der Expertise „Wenn Maschinen Menschen bewerten“, die von den Autoren im Auftrag der Bertelsmann-Stiftung angefertigt wurde: Lischka, K., Stöcker, C. (2017). Digitale Öffentlichkeit. Bertelsmann Stiftung. https://doi.org/10.11586/2017028 


Konrad Lischka ist Co-Leiter des Projekts Ethik der Algorithmen (https://algorithmenethik.de) der Bertelsmann Stiftung. Zuvor stellvertretender Ressortleiter Netzwelt bei Spiegel Online, danach Wechsel in die Medien- und Netzpolitik als Referent Digitale Gesellschaft in der Staatskanzlei Nordrhein-Westfalen.

Zum Literaturverzeichnis