Zum Wesen des maschinellen Lernens

maschinelles lernen, machine learning, künstliche intelligenz, prudsys, prudsys RDE, Omnichannel, Handel, E-Commerce, Echtzeit, Personalisierung

Aus mathematischer Sicht handeln Probleme des maschinellen Lernens von der Rekonstruktion auf unendlichen Mengen definierter Funktionen aus einer Beobachtung von endlich vielen Punkten und deren zugehörigen Funktionswerten. Zieht man hierbei alle möglichen Funktionen in Betracht, ist ein solches Problem nicht lösbar, da eine unendliche Funktion nicht eindeutig durch endlich viele Datenpunkte bestimmt werden kann.

Das Problem ist somit schlecht gestellt (ill-posed) – die Fragestellung demnach unsinnig. Dieser auf dem Gebiet des wissenschaftlichen Rechnens wohlbekannte Umstand bietet oftmals Anlass für Trugschlüsse: Naiver Weise wird oft angenommen, dass man das betrachtete Problem aufgrund der Spärlichkeit der Datenbasis oder der Qualität selbiger nicht in den Griff bekommen könne. Doch die Schwierigkeit ist nicht in der Beschaffenheit der spezifischen Probleminstanz, sondern im Wesen der Problemklasse, also auf der Metaebene, zu finden – so umfangreich eine Beobachtung auch sein mag, bleibt sie doch stets endlich und lässt somit kategorisch keinerlei Rückschluss auf die verbleibenden Funktionswerte zu. Wer nun den Einwand erhebt, dass die beobachteten Werte doch nur hinreichend repräsentativ sein müssten, dem sei gesagt, dass im Wesen der Aufgabenstellung keinerlei Hinweis auf ein sinnvolles Konzept von Repräsentativität enthalten ist, da alle möglichen Funktionen als gleichwertig betrachtet werden. Die Formulierung der Aufgabe ist also schlichtweg falsch. Die zwingende Konsequenz ist, dass bei der mathematischen Modellierung eines zugrunde liegenden Realweltproblems wesentliche Aspekte nicht berücksichtigt worden sind. Um zu einer sinnvollen Fragestellung zu gelangen, müssen zusätzliche Annahmen über die Struktur der gesuchten Lösung gemacht werden.

Der Raum der infrage kommenden Funktionen muss durch derartige Zusatzannahmen dahingehend eingeschränkt werden, dass aus einem sinnvollen endlichen Sample Rückschlüsse auf die unendlich vielen verbleibenden Funktionswerte gezogen werden können. Eine solche Einschränkung des Raumes der betrachteten Funktionen kann niemals durch Zuhilfenahme und Auswertung weiterer Datenpunkte erzielt werden. Vielmehr müssen ganzheitliche Aspekte der gesuchten Funktion betrachtet werden, die den Raum auf eine aus endlichen Informationen determinierten Funktionen bestehenden Klasse einschränken. Dieser Vorgang der Zuhilfenahme mehr oder minder heuristischer, apriorischer Annahmen zur Findung einer mathematisch sinnvollen Problemstellung bezeichnet man im wissenschaftlichen Rechnen als Regularisierung. Durch die Formulierung derartiger Annahmen wird nun mathematisch modelliert, welche Klasse von Beobachtungen als repräsentativ angesehen werden kann, d.h., an dieser Stelle findet eine mathematische Formalisierung des intuitiven Repräsentativitätsbegriffes statt. Demnach ist die Regularisierung grundsätzlich nicht Aufgabe der Mathematik, sondern ihrer Anwender, die sie nutzen, um Realweltprobleme der empirischen Inferenz zu formalisieren und zu lösen. Die Mathematik kann, sofern die von den Anwendern hinzugezogenen Apriori-Annahmen korrekt formalisiert sind, “lediglich” Auskunft darüber erteilen, ob und ggf. wie schwer eine regularisierte Problemstellung lösbar ist, sowie die erforderlichen Lösungsalgorithmen bereitstellen.

Als Beispiel sei das “Urproblem” der Nachrichtentechnik herangezogen: Die Rekonstruktion eines periodischen Signals aus endlich vielen Abtastpunkten. Betrachten wir hierbei alle möglichen Signale, so ist die Rekonstruktion nicht möglich. Kann jedoch aus Anwendungssicht angenommen werden, dass das Signal bandbegrenzt ist, d.h., keine beliebig großen Frequenzen daran beteiligt sind, und eine Schranke für die größtmögliche Frequenz angegeben werden, so ist sogar eine exakte Rekonstruktion des Signals auf Grundlage von hinreichend, jedoch stets endlich vielen Beobachtungspunkten ohne weiteres möglich. Diese keineswegs triviale Erkenntnis ist im sog. Abtasttheorem kodifiziert, welches auf den russischen Mathematiker und Elektrotechnik-Ingenieur Kontelnikov zurückgeht. Im Übrigen ist dieses eine wesentliche Grundlage der modernen digitalen Signalverarbeitung und somit auch vieler Informations- und Kommunikationstechnologien.

Das Beispiel verdeutlicht zudem einen weiteren wichtigen Aspekt der Regularisierung: Einschränkende Annahmen, die zu einer lösbaren Problemformulierung führen, können kategorisch ausschließlich aus Apriori-Wissen gewonnen und niemals aus den Datenpunkten selbst abgeleitet werden. Ansonsten bräuchten wir ja auch von vornherein keine Regularisierung, da das gesamte zur Rekonstruktion der gesuchten Funktion erforderliche Wissen ja bereits in diesen enthalten wäre.

Bei genauerem Hinsehen erkennt man, dass diese Einsicht allgemein für jedwede Form des empirischen Erkenntnisgewinns gültig ist. In der Tat haben wir es mit einem fundamentalen und archaischen Problem der Epistemologie (Erkenntnistheorie) zu tun: Das Problem der Induktion – Woher wissen wir überhaupt, dass irgendeine Beobachtung (die ja von ihrem Wesen her stets endlich ist) überhaupt in irgendeiner regelhaften Gesetzmäßigkeit begründet ist? Woher wissen wir, dass die Sonne am nächsten Morgen wieder aufgehen wird oder sich das Universum nicht plötzlich in nichts auflöst? Die intuitive Antwort lautet: Weil die Sonne bislang jeden Morgen aufgegangen ist und das Universum…naja, schon eine ganze Weile da ist. Aber was um alles in der Welt erlaubt uns, aus der endlichen Stichprobe, in welcher die Sonne stets wieder aufgegangen ist, darauf zu schließen, dass sie es wieder tun würde? Die endliche Stichprobe an sich lässt diesen Schluss jedenfalls nicht zu. Wer dies nicht glauben mag, sei auf das wohlbekannte Hühnerbeispiel, welches Betrand Russel in seinem Essay „The Problems of Philosophy“ formuliert: Ein Huhn wird bereits sein gesamtes Leben lang eines jeden Morgens gefüttert und schließt daraus, dass es sich in einer günstigen Lage befände, da es ja stets gut gefüttert werde. Dann kam der Tag der Schlachtung…

Halten wir also fest: Die Schlussweise
Datenpunkte => Gesetz (bzw. Funktion)
ist nicht valide. Allenfalls kann gelten
Datenpunkte und Apriori-Wissen => Gesetzt (bzw. Funktion)

Gewissermaßen störend hierbei ist in der Tat das Apriori-Wissen, da es nun mal von seinem Wesen her nicht aus der Beobachtung abgeleitet werden kann, entstünde hierbei doch ein Zirkelschluss. Wiederum könnte man einwenden, dass doch beispielsweise auch im Falle vieler Anwendungen des Abtasttheorems Ingenieure aus Erfahrung mit Lösungen ähnlicher Probleminstanzen auf die Bandgrenze einer gesuchten, noch unbekannten Funktion schlössen. Das kann in der Tat so sein, allerdings wird dabei das Problem der Induktion bzw. Regularisierung nicht mit empirischen Mitteln gelöst, sondern lediglich auf die Metaebene verlagert, auf welcher dann die Apriori-Annahme getroffen wird. Denn woher wissen die Ingenieure aus ihrer endlichen Erfahrung mit ähnlichen Problemen, dass diese für die unendlich vielen verbleibenden Problemfälle gelten müsse? (Im Übrigen sehe ich hier die empirische Kehrseite des 2. Gödelschen Unvollständigkeitssatzes, doch dies ist ein anderes Thema.)

Um einem gefährlichen Missverständnis vorzubeugen: Die obigen Betrachtungen sind auf keinen Fall als Anfechtung der empirischen Methodik der Natur- und Ingenieurwissenschaften zu verstehen. Ganz im Gegenteil – als studierter Ingenieur bekenne ich mich zu diesen Methoden und setzte mich dafür ein, dass ein grundsätzliches Verständnis selbiger in die Allgemeinbildung eines jeden mündigen Menschen einfließt. Lösungen bzw. Workarounds für das Problem der Induktion sind von Wissenschaftsphilosophen vielseitig ersonnen und diskutiert worden. Leider können wir diese aus Platzgründen hier nicht erörtern und verweisen auf die Arbeiten von z.B. Karl Popper, Bertrand Russel, Daniel Dennett und W.V.O. Quine.

Kurzum gilt für (maschinelles) Lernen: Keine Rekonstruktion ohne Regularisierung, keine Regularisierung ohne (heuristische) Apriori-Annahmen. „Maschinell“ steht hier in Klammern, da dies auch für das Lernen in biologischen Systemem, insbesondere Menschen und Tieren gilt. Auch unsere Kognition ist auf einer Vielzahl zum Großteil evolutionär fest verdrahteter Annahmen basiert. Aus diesem Grunde können wir abstrakte Zusammenhänge, die etwa nichts mit der Lebenswirklichkeit des menschwerdenden Affen zu tun haben, lediglich dank gewisser „Hacks“ in Form von Analogien und Metaphern verstehen. Die Physik der subatomaren Teilchen (Quantenphysik) oder der sehr großen bzw. sehr schnellen Objekte (Relativitätstheorie), welche einfach nichts mit der (Über-)lebenswirklichkeit unserer archaischen Vorfahren zu tun haben, sind wichtige, obgleich eher extreme Beispiele. In der Tat spielt dabei die Mathematik eine entscheidende Rolle: Sie stellt methodisch kontrollierbare Abstraktionen aus unserer Lebenswirklichkeit vertrauter Konzepte, wie z.B. das des Raumes, des Abstandes, der Ordnung bereit, mittels derer wir die Grenzen unserer Intuition erweitern können. Dies ist für sich genommen ein sehr spannendes Thema, welches ich gern in einem zukünftigen Beitrag aufgreifen werde. Nähere Informationen, inwieweit maschinelles Lernen für die prudsys Realtime Decisioning Engine eine Rolle spielt, kann auf der prudsys Website gelesen werden.

Autor: Alexander Paprotny | prudsys AG

Weiterführende Beiträge:

Aus dem Leben eines Data Scientist oder warum Statistik sexy ist

Ein spanischer Mathematiker bei der prudsys AG

0 Kommentare

Ihr Kommentar

Sie haben weitere Anmerkungen zu diesem Thema?
Wir freuen uns auf eine spannende Diskussion.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.