Vor einigen Wochen verkündete das Ministerium für Justiz und Verbraucherschutz, beim Thema Big Data und künstlicher Intelligenz stärker auf Anti-Diskriminierung und Gleichstellung hinwirken zu wollen. Die Reaktion der Kommentatoren aus der Technologiebranche hatte einen leichten Hang zum Hämischen, denn die digitalen Kompetenzen von Regierung und Administration werden generell nicht besonders hoch eingeschätzt. Was einerseits an teuren, aber wenig erfolgreichen Initiativen (DE-Mail, elektronischer Personalausweis, elektronische Gesundheitskarte, Suchmaschine Quaero) liegen mag, andererseits an den weitreichenden Ankündigungen, denen wenig Ergebnisse folgen (Breitbandausbau in der Fläche) und schließlich auch an manchen aus Sicht der Techniker merkwürdig anmutenden Sonntagsreden („Das Internet ist für uns alle Neuland“). Dazu kommt, dass Teile der Branche ohnehin gerade etwas nervös auf das Thema Gleichstellung reagieren, da ein Streit über Sinn und Art der Frauenförderung in Technologieberufen schwelt.

 

Doch wie steht es mit dem Inhalt des ministeriellen Anliegens, Diskriminierung durch Big-Data-Analysen zu verhindern? Zunächst ist festzuhalten, dass es das beschriebene Phänomen auf jeden Fall gibt. Beispielsweise „hilft“ in den Vereinigten Staaten ein Computerprogramm den Strafrichtern dabei, die Sozialprognose überführter Straftäter zu treffen. Der Algorithmus wirkt sich dabei unmittelbar auf die Dauer der zu verhängenden Strafe aus und beschneidet den Ermessensspielraum des Richters. Nach mehreren Jahren im Einsatz wurde bemerkt, dass das Programm die ethnische Herkunft des Delinquenten stark berücksichtigt; Kaukasier kamen stets besser davon, als Latein- und Afroamerikaner.

Statistisches Fehlverhalten?

Fehler dieser Art treten in statistischen Verfahren sehr leicht auf, vor allem wenn die verwendeten Ausgangsdaten nicht für alle Fragestellungen repräsentativ sind. Mathematiker kennen die relevanten Fehlerquellen grundsätzlich und wissen theoretisch, wie damit umzugehen ist. In der Praxis funktioniert es aber schon im Bereich der klassischen (also noch nicht einmal Big-Data-) empirischen Forschung regelmäßig nicht. Insbesondere in der Ernährungswissenschaft, aber auch in den Sozial- und Politikwissenschaften sowie der Medizin gibt es zahllose Veröffentlichungen mit mangelhaft validierten Modellen und höchst fragwürdigen und nicht reproduzierbaren Aussagen. Doch während hier mit Fleiß, Sorgfalt und strengeren Review-Verfahren eine Lösung möglich wäre, wird das Problem durch Big Data noch einmal massiv verschärft.

Die Next-best-offer-Maschinen der Online-Einzelhändler werten jeden Klick aus, der jemals auf der Website gemacht wurde, um zu entscheiden, welche Angebote dem aktuellen Kunden gemacht werden. Falls sich so ein System „antrainiert“, einer bestimmten Alterskohorte überdurchschnittlich mehr Sonderangebote zu machen als dem Rest, wird das vermutlich niemand bemerken. Wir wissen, dass es Händler gab und gibt, die (anhand der IP-Adresse) geschäftlichen Kunden teurere Angebote gemacht haben als Privatkunden und (anhand der Browserkennung) Apple-Nutzer gegenüber Android- und Windows-Nutzern benachteiligt haben. Beides erfolgte wohl noch schlicht regelbasiert (also nicht Big-Data-stochastisch), wirft aber unmittelbar die Frage auf, welche Art von Faktoren wie stark in die Preisfindung hineinspielen dürfen, um noch gesellschaftlich / ethisch akzeptiert zu werden. Denn anders als im Fall der US-amerikanischen Rechtsprechung, ist beim Preisdiskriminierungsbeispiel durchaus denkbar, dass die genannte Alterskohorte objektiv mehr Sonderangebote braucht als der Rest, um zum Kauf animiert zu werden. Im Kern ist die Erkenntnis solcher Zusammenhänge immerhin der Sinn der Next-best-offer-Maschinen. Solch eine Maschine dazu zu bringen, bestimmte Sachverhalte für die Bewertung zu ignorieren, erfordert manuelle Eingriffe, bei denen man sehr genau wissen muss, was man verhindern möchte.

Denn selbst wenn eine lernende Maschine konfiguriert wurde, die einschlägigen Merkmale des allgemeinen Gleichstellungsgesetzes (AGG – z. B. Alter, Geschlecht, Religion) nicht zu berücksichtigen oder gar nicht erst zu erheben, ist es gut möglich, dass die Maschine unbeabsichtigt über Umwege Proxies für gerade diese Eigenschaften findet und sich dann darüber eine Diskriminierung entwickelt. Stellen Sie sich einfach vor, Sie müssten in einer Drogerie raten, welcher Warenkorb einer Rentnerin und welcher einem Teenager gehört – das dürfte in den meisten Fällen keine allzu schwere Aufgabe sein, oder? Ebenso genügen ein paar Dutzend Facebook-Likes in den meisten Fällen vollkommen, um viele AGG-relevante Details zu erraten.

 

Das Thema Big Data ist ein Thema, welches wir u.a. auf dem Messekongress „IT für Versicherungen“ behandeln. Der Messekongress findet am 28./29. November 2017 in Leipzig statt. Weitere Informationen zum Programm finden Sie unter www.assekuranz-messekongress.de/it.

 

Bei dem Blogbeitrag handelt es sich um einen Auszug aus dem Themendossier Nr. 17/2017 Versicherungs-IT – Wichtiger Teil der Unternehmens-DNA. Für unsere Forenpartner ist das Themendossier frei verfügbar. Sollten Sie noch keinen Login als Forenpartner haben, dann wenden Sie sich an unsere Ansprechpartnerin Magdalena Dröse. Ihre Kontaktdaten finden Sie auf der Themendossier-Seite.


 

Vincent Wolff-Marting
Vincent Wolff-Marting ist seit 2013 bei den Versicherungsforen Leipzig, wo er die Leitung des Kompetenzteams »Digitalisierung & Innovation« übernommen hat. Nachdem er einige Jahre als wissenschaftlicher Mitarbeiter an den Universitäten Essen und Leipzig tätig war, bringt er nun sein fundiertes (IT-)Wissen in der Versicherungspraxis ein. Er ist Ansprechpartner für alle Themen im Bereich der Versicherungsinformatik, Digitalisierung und Innovation und begleitet Versicherungsunternehmen bei Strategie- und Entwicklungsprojekten.