Deep Statistik, ähhh … Learning!

Die Berichte über künstliche Intelligenz und Deep Learning scheinen auch nach den großen Durchbrüchen von Google oder Watson nicht abzureißen. Schaut man sich diese genauer an, so stellt man sehr schnell fest, dass sich dabei die „künstlichen“ Geister scheiden. Es herrscht momentan eine positive Grundstimmung, jedoch häufen sich auch zunehmende negative Meldungen – getreu dem Hype-Circle-Motto „viel Lärm bis die Entrüstung größer wird“.

Typ:
Blogartikel
Rubrik:
Analytik & IT
Themen:
KI / AI / künstliche Intelligenz Big Data Data Analytics
Deep Statistik, ähhh … Learning!

Versetzen wir uns alle zurück in die Schulzeit und erinnern uns an den Statistikunterricht. Früher oder später hat zumindest jeder Schüler eine Weisheit mit auf dem Weg bekommen: „Glaube nie einer Statistik, die du nicht selbst gefälscht hast.“ Für diejenigen, die sich jetzt fragen, wie man von künstlicher Intelligenz reden kann und gleichzeitig das Wort Statistik verwendet: nun ja, dies bedarf einer etwas längeren Erklärung…

Deep Learning bezeichnet eine spezielle Art von Machine-Learning-Algorithmen. Dabei werden tiefe neuronale Netze trainiert, die anhand von Beispielen lernen sollen. Es werden riesige Mengen an Beispieldaten benötigt, um deren unzählige Parameter so zu bestimmen, dass solch ein Netz in der Lage ist, auch noch nicht gesehene Beispiele korrekt zuzuordnen. Immer wenn man von vielen Daten spricht und dem Erlernen anhand von Parametern, landen wir unweigerlich in der Statistik. In gewisser Weise steckt in dem Lernen also eine automatisierte, statistische Aufbereitung der Beispieldaten. Man spricht hier auch von statistischem Lernen. In den Daten sollen unter anderem mit Hilfe von probabilistischen Aussagen, also Wahrscheinlichkeitsaussagen, (abstrakte) Regelmäßigkeit gefunden werden. Das Netz entzerrt sehr komplexe Zusammenhänge in einzelne abstrakte Umwandlungen und führt diese später wieder mit anderen Interpretation zusammen. Doch nicht nur innerhalb der Netze spielt die Statistik eine große Rolle.

Ein Zahlenspiel der Statistik

Selbst die Anzahl der Beispieldaten hat eine statistische Signifikanz auf die Algorithmen. Oftmals hört man bei der Präsentation solcher Algorithmen, diese würden mit einer Genauigkeit von z. B. 90 Prozent arbeiten. Auch hier ist die Statistik wieder ein wichtigstes Instrument, diese Ergebnisse zu bewerten oder zu beschönigen. Zum besseren Verständnis wird dies nun an einem kleinen Rechenbeispiel veranschaulicht: Das neuronale Netz soll aus 9.000 Katzenbildern und 1.000 Hundebildern lernen, was die bestimmenden Faktoren zur Erkennung von Katzen oder Hunden sind. Eine 90-prozentige korrekte Zuordnung könnte bedeuten, dass von 10.000 Bilder diejenigen, auf denen eine Katze zu sehen ist, auch als Katze erkannt werden. Doch was ist mit den Hunden? Selbst wenn der Algorithmus keinen einzigen Hund erkennen würde, wäre die Genauigkeit 90 Prozent. Das heißt, der Algorithmus hat unter Umständen gar nichts gelernt, außer, dass die Antwort immer „Katze“ ist. Zur Bewertung solcher Systeme ist daher nicht nur wichtig, zu wissen, was korrekt erkannt wurde, sondern auch, was falsch zugeordnet wurde. Erst wenn man eine ganze Reihe diverser statistische Bewertungsmerkmale hat, lässt sich die Qualität eines solchen Systems beurteilen. Die statistische Relevanz spiegelt sich aber auch schon in der Anzahl der Trainingsdaten wieder. Aus 9.000 Katzenbildern lassen sich sicher viel mehr Informationen gewinnen als aus 1.000 Hundebildern.

Jeder von Ihnen hatte sicher schon mal Kontakt mit Machine-Learning-Algorithmen und damit meine ich nicht unbedingt Alexa, Siri, Google oder die intelligente Fotosuche des Handys. Das glauben Sie nicht? Vielleicht kommt Ihnen folgendes Diagramm und nachfolgende Aufgabe bekannt vor. Gesucht ist ein gerade Linie, welcher die Merkmalsachse und deren Ausprägung miteinander in Beziehung setzt. Die Lösung (rote Linie) scheint, recht offensichtlich zu sein. Auch ein Computer bzw. Verfahren kann genau nach diesem Zusammenhänge suchen. Dabei spielt es keine Rolle, wie „einfach“ dieser Zusammenhang ist; das Verfahren hat den Zusammenhang aus den Daten gelernt. Wenn also ein Verfahren aus Daten etwas lernt und das statistische Lernen für Machine Learning verwendet wird, dann ist auch diese einfache Abbildung ein perfekter Repräsentant. Für die, die es genau wissen möchten, es handelt sich bei dem Beispiel um eine lineare Regression.

Ein Beispiel für eine Regression

Animation einer Regression zwischen einem Merkmal und seiner Ausprägung

Die richtige Einstellung zählt

Trotz aller Überführung in die Statistik, sind mit diesen Systemen Probleme lösbar, bei denen noch vor vielen Jahre gedacht wurde, ein Computer sei dazu nicht in der Lage. Es entstehen regelrechte Forschungswettbewerbe, wer ein System für spezifische Probleme besser gestalten kann. Andere Forschungsbestandteile beschäftigen sich mit dem Lernen aus kleinen Datenmengen oder auch dem Training einer KI, welcher von einer KI lernt, in dem sie versucht, die andere KI zu täuschen.

Die Technologie ist noch lange nicht am Ende ihrer Möglichkeiten. Auch das bereits Mögliche ist mehr als beeindruckend. Dennoch darf man bei aller Euphorie nicht das Wesentliche aus den Augen verlieren  – Machine Learning und Deep Learning basieren auf mathematischen Prinzipien und dürfen nicht mit der Erzeugung einer künstlichen Intelligenz à la Science Fiction verwechselt werden.