Jusletter IT

KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik

Author: Diogo Campos Sasdelli
Category of articles: Security and Law
Region: Czech Republic, EU
Field of law: Security and Law
Collection: Conference proceedings IRIS 2022
DOI: 10.38023/76692828-9da1-469a-8310-10fd68db582e
Citation: Diogo Campos Sasdelli, KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik, in: Jusletter IT 30 June 2022

Reinforcement Learning zählt aktuell zu den beliebtesten Ansätzen im Bereich des Machine Learning. Hierbei geht es um den Ansatz, eine Art Belohnungsfunktion zu bestimmen, die der Maschine je nach ihrem Verhalten einen bestimmten Belohnungswert zuordnet. Die Maschine strebt an, diesen Wert zu maximieren. Der normative Charakter dieses Ansatzes springt in die Augen. In diesem Aufsatz wird gezeigt, dass einige Probleme, die im Zusammenhang mit Reinforcement Learning auftauchen (Reward Hacking) sehr enge strukturelle Verwandtschaften mit den sog. Paradoxa der Normenlogik aufweisen.

1. Prolegomena
1.1. Die Normenlogik und ihre Paradoxa
1.2. Neuronale Netze, maschinelles Lernen, Reinforcement Learning
2. KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik
3. Schluss
4. Literatur

1. Prolegomena ^

1.1. Die Normenlogik und ihre Paradoxa ^

[1]

Als wissenschaftliche Disziplin beschäftigt sich die Normenlogik¹ (mitunter auch „deontische Logik“, Englisch: deontic logic) einerseits mit den Merkmalen des (intuitiv) richtigen Schließens in praktischen bzw. normativen Kontexten, andererseits mit den Versuchen, die formalen Methoden der mathematischen, symbolischen Logik auf den Bereich des Normativen anzuwenden, um dadurch Systeme bzw. Kalküle zu gewinnen, die das (intuitiv) richtige Schließen in praktischen bzw. normativen Kontexten abbilden sollen. Auf diese Weise wird versucht, das in intuitiver Hinsicht richtige Schließen (in normativen Kontexten) auf eine mathematisch präzise Definition von richtigem Schließen zu reduzieren.

[2]

Für den Aufbau dieser Systeme und Kalküle stehen der Normenlogik die diversen mengentheoretischen und kalkültechnischen Strukturen zur Verfügung, die im Rahmen der klassischen, deskriptiven Logik bereits entwickelt worden sind. Außerdem ist man auf den ersten Blick dazu geneigt, eine gewisse Parallelität zwischen der Logik des Deskriptiven und der Logik des Normativen zu erkennen. Man vergleiche etwa das Beispiel:²

Deskriptiv:	Normativ:
(1) Philip hält all seine Versprechen. (2) A ist ein Versprechen von Philip. (3) Also: Philip hält A.	(1’) Philip, halte all deine Versprechen! (2’) A ist ein Versprechen von Philip. (3’) Also: Philip, halte A!

[3]

Das Argument auf der linken Seite stellt ein klassisches Beispiel für einen gültigen Schluss der deskriptiven Logik dar: Die Konklusion (3) folgt aus den Prämissen (1) und (2). Das Argument auf der rechten Seite wird nach demselben Muster aufgebaut, gehört indes zum Bereich des Normativen: Der Imperativ in der Konklusion (3’) scheint aus dem Imperativ in (1’) und aus der Aussage in (2’) genauso logisch zu folgen, wie (3) aus (1) und (2).

[4]

Weitere Beispiele stammen aus dem Bereich der sog. Modallogik:

Deskriptiv:	Normativ:
(A) A ist notwendig. (B) Also: A ist möglich. Oder noch: (C) Also: Nicht-A ist nicht möglich.	(A’) A ist geboten. (B’) Also: A ist erlaubt. Oder noch: (C’) Also: Nicht-A ist nicht erlaubt.

[5]

Die Symmetrie zwischen den Argumenten (A)-(C) und (A’)-(C’) legt nahe, dass sich die sog. deontischen Modalitäten, d.h. Gebotensein, Verbotensein und Erlaubtsein analog zu den klassischen alethischen Modalitäten, etwa Notwendigkeit, Möglichkeit und Unmöglichkeit verhalten.³

[6]

Wohl von derartigen Symmetrien motiviert sind fast all die seit der (Wieder-)Geburt der normenlogischen Forschung im 20. Jahrhundert vorgeschlagenen Systeme und Kalküle für die Normenlogik analog zu Systemen der klassischen, deskriptiven Logik aufgebaut worden. Dies ist in zwei Hinsichten problematisch: Erstens ist aus philosophischer Sicht etwas befremdlich, wenn die Logik des Normativen dieselbe Struktur aufweisen sollte wie die Logik des Deskriptiven, da zwischen dem Spekulativ-Deskriptiven und dem Normativen sonst eine scharfe, so gut wie unüberwindbare Trennung zu herrschen scheint. Das klassische Beispiel hierfür ist der häufig mit der Philosophie von D. Hume in Verbindung gesetzte, sog. naturalistische Fehlschluss – es sei unmöglich, normative Konklusionen aus deskriptiven Prämissen bzw. deskriptive Konklusionen aus normativen Prämissen abzuleiten.⁴ Ein zweites Problem ist eher pragmatischer bzw. anwendungsorientierter Natur: Wie bereits eingangs erwähnt wurde, besteht eine der Aufgaben der Normenlogik als wissenschaftlicher Disziplin darin, formale Systeme und Kalküle zu entwickeln, die das aus intuitiver Sicht richtige Schließen im Kontext des Normativen abbilden sollen. Nun kommt es manchmal vor, dass man Schlüsse findet, die innerhalb des formalen Rahmens eines jeweiligen Systems zwar korrekt sind, aus rein intuitiver Sicht jedoch nicht nur fehlerhaft, sondern manchmal gar absurd erscheinen. Diese Beispiele von Dissonanzen zwischen der Intuition einerseits und der von einem jeweiligen logischen System gelieferten präzisen Definition andererseits, die diese Intuition in all ihren Nuancen erfassen sollte, werden als Paradoxa der Normenlogik bezeichnet.

[7]

Man betrachte etwa die folgenden Beispiele für Paradoxa der Normenlogik:

[8]

Der naturalistische Fehlschluss:

Deskriptiv:	Normativ:
(1) Es ist notwendig, dass A. (2) Also: Es ist der Fall, dass A.	(1’) Es ist geboten, dass A. (2’) Also: Es ist der Fall, dass A.

[9]

In der klassischen alethischen Modallogik kann aus der Notwendigkeit auf die Tatsächlichkeit geschlossen werden. Wird allerdings diese Struktur in die Normenlogik übernommen, führt dies zur problematischen Situation, dass alle Gebote stets (kraft der Logik) erfüllt sind bzw. dass es logisch unmöglich ist, Normen zu verletzen.

[10]

Das Ross’sche Paradoxon:⁵

Deskriptiv:	Normativ:
(1) Es ist der Fall, dass A. (2) Also: Es ist der Fall, dass A oder B.	(1’) Es ist geboten, dass A. (2’) Also: Es ist geboten, dass A oder B.

[11]

In der klassischen deskriptiven Logik kann aus A stets eine beliebige Disjunktion von A mit etwas anderem gefolgert werden. Ein beliebiges Disjunktionsglied kann m.a.W. stets importiert werden. Denn für die Wahrheit einer Disjunktion reicht schon aus, wenn eines der Disjunktionsglieder wahr ist. Mit der Wahrheit von (1) ist also gewährleistet, dass auch (2) wahr ist, so dass (2) logisch aus (1) folgt. Die Aufnahme dieser Schlussstruktur in die Normenlogik führt aber zu einem Paradoxon.⁶ Lässt man nämlich zu, dass (2’) aus (1’) logisch gefolgert wird, dann erhält man für alle Situationen, in denen A nicht der Fall ist, d.h. in denen die Norm in (1’) verletzt wird, zumindest indirekt das Gebot, B zu tun; denn unter der Annahme, dass A nicht der Fall ist, kann (2’) nur dadurch erfüllt werden, dass B getan wird. Aus der Verletzung einer Norm ließen sich somit beliebige Gebote folgern. Würde man beim deskriptiv-logischen Argument (1)-(2) annehmen, dass A nicht der Fall ist, was der Prämisse (1) direkt widerspricht, so würde man eine inkohärente Prämissenmenge erhalten, woraus sich ebenfalls Beliebiges folgern ließe (ex falso quodlibet). Dies ist Ausdruck dafür, dass es im Rahmen der deskriptiven Logik nicht sinnvoll ist, anzunehmen, dass A gleichzeitig der Fall und nicht der Fall ist. In der Logik des Normativen sollte man aber sinnvoll annehmen können, dass A geboten und zugleich nicht der Fall ist, d.h. dass eine Norm verletzt wird.

[12]

Vermeidung der normativen Bedingung:

(1) Wenn A, dann B.
(2) Also: Nicht-A oder B .

(1’) Wenn A, dann mache B!
(2’) Sorge für Nicht-A, oder mache B!

[13]

Dieses Problem ist mit dem Ross’schen Paradoxon verwandt. In der klassischen Aussagenlogik ist jede „Wenn... dann...“ Aussage äquivalent zu einer Disjunktion. Übertragen auf das Normative führt dies zum Paradoxon, dass man aus einer bedingten Norm den Befehl folgern kann, das Eintreffen der entsprechenden Bedingung zu verhindern, um den eigentlichen Norminhalt nicht erfüllen zu müssen. Dies ist intuitiv nicht zu begründen: Wenn ich z.B. meinem Mitarbeiter die Anweisung gebe, er soll das Telefon abnehmen, wenn es klingelt, darf er daraus nicht folgern, dass er, wenn er das Telefon nicht abnehmen möchte, dafür sorgen soll, dass es nicht klingelt, etwa indem er das Telefon zerstört.

[14]

Das Paradoxon des barmherzigen Samariters:⁷

Deskriptiv:	Normativ:
(1) Es ist der Fall, dass A. (2) Wenn A, dann B. (3) Also: Es ist der Fall, dass B.	(1’) Es ist geboten, dass A. (2’) Wenn A, dann B. (3’) Also: Es ist geboten, dass B.

[15]

Das Schema auf der linken Seite wird in der klassischen Logik als Modus Ponens bezeichnet. Mit dem Bestehen von A und unter der Annahme, dass B aus A folgt, kann auf das Bestehen von B geschlossen werden. Auch dieses Schlussmuster gilt im Bereich des Normativen nicht uneingeschränkt. Bedeutet A nämlich „Du besuchst deine kranke Oma im Krankenhaus“ und B „Deine Oma ist krank“, dann wird aus dem Gebot, die kranke Oma im Krankenhaus zu besuchen, und aus dem (wohl trivialen) Umstand, dass deine Oma krank ist, wenn du deine kranke Oma im Krankenhaus besuchst, für deine Oma das Gebot gefolgert, krank zu sein. Dies ergibt freilich wenig Sinn. Typisch für diese Art von Paradoxon ist die Ableitung eines Gebots bezüglich der Herstellung der notwendigen Bedingungen für die Erfüllung einer bereits als geltend angenommenen Norm: Damit du dein Gebot erfüllen kannst, deine Oma im Krankenhaus zu besuchen, muss sie krank sein. Daraus wird für die Oma das befremdliche Gebot gefolgert, krank zu sein.⁸

[16]

Die Absicht, ein möglichst paradoxienfreies System der Normenlogik aufzubauen, hat die normenlogische Forschung seit dem 20. Jhdt. zur Entwicklung unzähliger verschiedener Systeme und Kalküle für die Normenlogik motiviert. Dies hat manchmal zu recht unübersichtlichen Systemen geführt, die z.T. aus einer Mischung aus den verschiedensten logischen Strukturen zusammengesetzt werden, allen voran aus Modal- und Prädikatenlogik, aber auch aus Elementen der nicht-monotonischen, der mehrwertigen oder sogar der Zeit- oder epistemischen Logik. In Bezug auf die jeweils zulässigen Schlussmuster sind diese Systeme i.d.R. extrem schwach – und die wenigen zulässigen Schlüsse wirken etwa für Juristen oder Moralphilosophen entweder trivial oder gar befremdlich.⁹ Mit der zunehmenden logischen Komplexität dieser Systeme sowie dem damit verbundenen Verlust an intuitiver Übersichtlichkeit und in Anbetracht ihres fraglichen Nutzens für die Behandlung konkreter Fragen nahm das Interesse der rechtswissenschaftlichen bzw. der moralphilosophischen Debatte für die Normenlogik ab den 70er und 80er Jahren kontinuierlich ab.

1.2. Neuronale Netze, maschinelles Lernen, Reinforcement Learning ^

[17]

Aus rein formaler Perspektive kann eine Maschine als ein Algorithmus definiert werden, d.h. als eine Menge von mit mathematischer Genauigkeit definierten Regeln, durch die eine Aufgabe in endlich vielen Schritten erfüllt werden kann. Konkret ist aber eine Maschine ein Gerät, das einen Algorithmus durchführt. Manche Maschinen können verschiedene Algorithmen durchführen und somit für die Erfüllung verschiedener Aufgaben eingesetzt werden. Eine Maschine, die alle möglichen Algorithmen durchführen kann, ist eine sog. universelle Maschine.¹⁰

[18]

Moderne Computer, d.h. Digitalrechner sind Verwirklichungen der Vorstellung von universellen Maschinen. Sie sind nämlich in der Lage, die verschiedensten Algorithmen (d.h. die verschiedensten Programme) durchzuführen. Damit ein Computer ein Programm durchführen kann, muss ihm dieses Programm zunächst zur Verfügung gestellt werden – er muss programmiert werden. Dafür gibt es grundsätzlich zwei Ansätze: Entweder wird das entsprechende Computerprogramm von jemandem geschrieben und in den Computer installiert oder man entwickelt ein anderes Programm, das dem Computer ermöglicht, sich selbst zu programmieren, und zwar gezielt auf die Erfüllung derjenigen Aufgabe, auf die man ihn einsetzen will. Für das Programmieren nach diesem zweiten Ansatz erweisen sich sog. neuronale Netze als besonders geeignet.¹¹

[19]

Ein neuronales Netz ist eine Maschine, die aus mehreren miteinander verbundenen Recheneinheiten, sog. Knoten, mitunter auch künstlichen Neuronen oder Units zusammengesetzt wird. Diese Knoten wirken aufeinander: Das Ergebnis der Berechnungen eines Knotens beeinflusst die Berechnungen der anderen Knoten, die mit diesem verbunden sind. Die Stärke dieser Wechselwirkung hängt vom Gewichtswert ab, der für die Verbindung zwischen zwei Knoten festgelegt wird. Die genaue Funktionsweise der einzelnen Knoten (etwa ihre Aktivierungs- und Outputfunktionen) und die Form, wie sie miteinander verbunden sind (die Architektur), können je nach der Aufgabe, auf die die Maschine eingesetzt wird, stark variieren. Generell gilt, dass das Verhalten der Maschine (d.h. der Algorithmus bzw. das Programm, das sie durchführt) von den Gewichten der Verbindungen zwischen ihren Knoten abhängt. Der Algorithmus, der von einem neuronalen Netz durchgeführt wird, befindet sich also kodiert in den Gewichten der Verbindungen zwischen den Knoten, die dieses neuronale Netz integrieren. Ändert man also die Werte dieser Gewichte, so wird die Maschine umprogrammiert.

[20]

Ein Algorithmus, der die Gewichte eines neuronalen Netzes gezielt auf die Erfüllung einer bestimmten Aufgabe automatisch modifiziert, heißt ein Lernalgorithmus. Je nach dem jeweils verfolgten Zwecke können verschiedene Lernalgorithmen eingesetzt werden. Den meisten Lernalgorithmen zugrunde liegend ist das sog. Hebb’sche Prinzip.¹² Dieses besagt, dass die Verbindungen zwischen Knoten, die sich auf ein jeweils zu erreichendes Ziel positiv bzw. negativ auswirken, entsprechend verstärkt bzw. geschwächt werden sollen.

[21]

In manchen Problemkonstellationen ist es möglich, die von der Maschine zu erfüllende Aufgabe mit einem so hohen Präzisionsgrad zu definieren, dass bei einem suboptimalen Verhalten der Maschine für jedes einzelne Gewicht bestimmbar ist, in welchem Maße es verstärkt oder geschwächt werden soll, um die Fehlerquote eines spezifischen Knotens und a fortiori auch der ganzen Maschine zu minimieren bzw. das Maschinenverhalten schrittweise zu optimieren, bis eine beliebig kleine Gesamtfehlerquote erreicht wird. In solchen Fällen kann man auch von einer lokalen Durchsetzung des Hebb’schen Prinzips sprechen. Beispiele dafür stellen die sog. Hebb’sche Regel oder der Backpropagationsalgorithmus dar.

[22]

In vielen Anwendungskontexten sind allerdings präzise Bestimmungen nicht möglich. Dies ist insbesondere dann der Fall, wenn die Maschine nicht bloß abstrakte Rechenoperationen durchführen soll, sondern mit der wirklichen Welt interagieren muss. Man stelle sich beispielsweise vor, man möchte einen Roboter bauen und auf die Erfüllung einer konkreten Aufgabe programmieren, etwa das Putzen eines Zimmers. Bei dieser Art von Konstellation können unabsehbar viele Umweltfaktoren auftauchen, die die Erfüllung der Aufgabe durch den Roboter beeinflussen können: Die Ausstattung des zu putzenden Zimmers kann geändert werden, es können sich unerwartet Personen oder Tiere ins Zimmer begeben, das ganze Haus mag in Brand geraten usw. In jeder dieser Konstellationen wird der Roboter unterschiedliche Maßnahmen in unterschiedlichen Reihenfolgen ergreifen müssen, um seine Aufgabe so gut wie möglich erfüllen zu können. Dies hat zur Folge, dass die zu erfüllende Aufgabe selbst einen Unbestimmtheitsgrad aufweist: Bei jedem leicht verschiedenen Kontext handelt es sich eigentlich um eine leicht verschiedene konkrete Aufgabe, die vom Roboter erfüllt werden soll. Von der Maschine wird also erwartet, dass sie ihre nur in abstracto definierte Aufgabe in einem im Grunde unberechenbaren Umfeld erfüllt. Da aber die in concreto zu erfüllende Aufgabe nicht detailliert bestimmt werden kann, lassen sich auch keine zuverlässigen Fehlerquoten o.ä. für die Maschine definieren, die es im Rahmen des Lernverfahrens zu minimieren gälte; denn nach welchem Parameter sollte gemessen werden, ob und inwiefern das jeweilige Maschinenverhalten vom gewünschten bzw. richtigen Verhalten abweicht?

[23]

Bei solchen Konstellationen erweist sich eine alternative Durchsetzungsform des Hebb’schen Prinzips als angemessener: Anstatt das Lernverfahren lokal, d.h. in Bezug auf jeden einzelnen Knoten zu bestimmen, so dass jede Gewichtsänderung proportional zur spezifischen Fehlerquote des jeweiligen Knotens definiert wird, zieht man vielmehr eine globale Auslegung des Hebb’schen Prinzips vor: Nicht jeder einzelne Knoten, sondern das ganze neuronale Netz wird im Rahmen des Lernverfahrens gemäß seinem Verhalten und je nach Situation evaluiert. Diese Evaluation kann entweder von einem Menschen oder von der Maschine selbst nach im Voraus bestimmten Kriterien durchgeführt werden. Konkret erfolgt dies i.d.R. mittels der Bestimmung einer abstrakten Belohnung (reward) bzw. eines entsprechenden Belohnungswerts: Erfüllt die Maschine ihre Aufgabe in ausreichendem Maße, dann wird sie positiv belohnt, d.h. ihr Belohnungswert wird erhöht. Verfehlt sie ihr Ziel, dann wird sie negativ belohnt bzw. bestraft. Anders als beim lokalen Ansatz ist also das Ziel des Lernverfahrens nicht mehr die Minimierung einer spezifischen Fehlerquote o.ä., die auf die Gewichtswerte der einzelnen Knoten direkt zurückgeführt werden kann, sondern die Maximierung eines Belohnungswerts, welcher der Maschine als Ganzem angesichts ihres Verhaltens zugeteilt wird. Diese Form von maschinellem Lernen wird üblicherweise als Reinforcement Learning bezeichnet.¹³

2. KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik ^

[24]

Mit der Verknüpfung einer Belohnung für die Erfüllung einer nur in abstracto definierten Aufgabe weist das Reinforcement Learning eine deutliche Verwandtschaft mit Normen auf. Man könnte fast sagen, dass der Maschine ein Befehl erteilt wird, für dessen Erfüllung bzw. Verletzung sie entsprechend belohnt bzw. bestraft wird. Wie nun im Folgenden zu zeigen sein wird, tauchen in Zusammenhang mit diesem Ansatz zum maschinellen Lernen Probleme auf, die zu den oben in 1.1. diskutierten Paradoxa der Normenlogik analog sind.

[25]

Diese Probleme sind nicht nur in theoretischer Hinsicht von Interesse – sie stellen auch konkrete Probleme im Bereich der sog. KI-Sicherheit (AI-Safety), d.h. der sicheren Einsetzung von künstlicher Intelligenz dar: Da es sich um Roboter handelt, die zur Durchführung von konkreten Aufgaben in der wirklichen Welt konzipiert werden, deren spezifische Funktionsweisen sich jedoch nur mit beschränktem Bestimmtheitsgrad programmieren lassen, muss damit gerechnet werden, dass sich diese Maschinen unter Umständen auf eine unerwartete, potentiell gefährliche Weise verhalten werden. Eine solche Situation wird mitunter als Unfall bezeichnet.¹⁴

[26]

Amodei et al. (2016) diskutieren am Beispiel eines hypothetischen Putzroboters u.a. den von ihnen als Reward Hacking bezeichnete Faktor, der das Unfallrisiko im Kontext des Reinforcement Learning beeinflussen kann. Wie bereits oben erwähnt, basiert das Reinforcement Learning auf der Bestimmung einer abstrakten Belohnung, die der Maschine zugeteilt wird, wenn sie ihre Aufgabe in ausreichendem Maße erfüllt. Die Maschine wird darauf programmiert, ihren Belohnungswert zu maximieren. Im Optimalfall soll der ganze Vorgang automatisiert werden: Die Maschine selbst soll in der Lage sein, ihr Ergebnis zu evaluieren und die daraus resultierende Änderung ihres Belohnungswertes nach im Voraus bestimmten Parametern zu ermitteln. Weil die zu erfüllenden Aufgaben jedoch nur in abstracto definiert werden können, müssen für die Bestimmung dieser Belohnung ein oder mehrere konkrete Proxys, d.h. konkrete Ersatzbedingungen definiert werden, mit deren Erfüllung die Maschine belohnt wird. Dadurch können zwar unerwartete, bislang unbekannte Lösungen zu den jeweiligen Aufgaben entdeckt werden. Es kann indes auch vorkommen, dass die Maschine ein ungewünschtes Verhalten entwickelt, welches im Grunde die Ersatzbedingung (Proxy) zwar erfüllt, jedoch die ursprüngliche Aufgabe, für die sie eigentlich hätte programmiert werden sollen, missachtet. Amodei et al. (2016) S. 3 bzw. 7 geben hierfür mehrere Beispiele an: Ein Putzroboter, der immer dann belohnt wird, wenn er keine Unordnung in seiner Umwelt mehr sieht, könnte seinen Belohnungswert maximieren, indem er, anstatt das Zimmer aufzuräumen, einfach seine Augen zudrückt. Wird der Roboter wiederum immer dann belohnt, wenn er tatsächlich etwas aufräumt, dann könnte er selbst mehr Unordnung verursachen, um dadurch mehr aufzuräumen zu haben und folglich mehr Belohnung erhalten zu können. Ein Roboter, der direkte Putzaufträge von Menschen erhält und nur dann einen maximalen Belohnungswert erhält, wenn er keine offenen Aufträge hat, könnte die Strategie entwickeln, sich vor Menschen zu verstecken, um keine neuen Putzaufträge zu bekommen.

[27]

Wie man unschwer erkennt, weisen diese Beispiele von Reward Hacking dieselbe Struktur auf wie die Paradoxa der Normenlogik. Man betrachte etwa die Situation des Putzroboters aus den obigen Beispielen, der selbst Unordnung verursacht, damit er diese Unordnung aufräumen kann. Er verhält sich auf diese Weise offenbar deswegen so, weil er nur dann seinen Auftrag erfüllen kann, Unordnung aufzuräumen, wenn es bereits Unordnung gibt, die aufgeräumt werden kann. Sein konkretes Handeln wird also nach dem folgenden Muster bestimmt: Aus dem Befehl einer Handlung „A“ („räume Unordnung auf!“) wird der Befehl einer anderen Handlung „B“ („verursache Unordnung!“) abgeleitet, die eine notwendige Bedingung für „A“ darstellt – denn wenn Unordnung tatsächlich aufgeräumt wird, dann muss es schon Unordnung geben. Das ist genau die Struktur des oben in 1.1. diskutierten Paradoxons des barmherzigen Samariters.

[28]

Ähnlich verhält es sich im Falle des Putzroboters, der sich vor Menschen versteckt, um keine weiteren Putzaufträge zu bekommen: Um eine bedingte Norm nicht erfüllen zu müssen, vermeidet der Roboter das Zutreffen der Bedingung. Er leitet aus einer Norm wie „Wenn ein Mensch dir einen Putzauftrag gibt, dann führe ihn durch!“ die Norm „Wenn du einen Putzauftrag nicht erfüllst [bzw. erfüllen kannst oder willst], dann verhindere, dass Menschen dir den Putzauftrag geben“ ab. Dasselbe gilt auch für den Roboter, der die Augen zudrückt, um keine Unordnung sehen zu können: Indem er seine Augen zudrückt, verhindert er das Zutreffen der normativen Bedingung der ihm erteilten bedingten Norm: „Wenn du Unordnung siehst, räume sie auf!“ Dies ist aber dieselbe Struktur des oben in 1.1. diskutierten Problems der Vermeidung der normativen Bedingung.

3. Schluss ^

[29]

Die obigen Erwägungen zeigen, dass es eine sehr enge strukturelle Verwandtschaft zwischen den normenlogischen Paradoxa und dem sog. Reward Hacking gibt. Dies ist wohl kein Zufall; denn da Kalküle und Algorithmen als Aufzählungsverfahren stets aufeinander reduzierbar bzw. zueinander äquivalent sind, so ist der Ansatz, eine Maschine im Sinne des Reinforcement Learning auf die Erfüllung von Normen zu programmieren, vollkommen äquivalent zum Versuch, einen normenlogischen Kalkül aufzubauen. Auf der Basis dieser Beobachtung lässt sich feststellen:

Die vielen vor allem ab dem 20. Jahrhundert entwickelten Ansätze zur Beseitigung der normenlogischen Paradoxa könnten einen wichtigen Beitrag zur Lösung von Problemen im Bereich KI-Sicherheit und Reinforcement Learning (vor allem dem Reward Hacking) leisten.
Es ist zu erwarten, dass zukünftige Versuche im Bereich des Reinforcement Learning weiteren Schwierigkeiten begegnen werden, die zu anderen Problemen aus dem Bereich der Normenlogik analog sind (etwa definitorischen Schwierigkeiten bezüglich der Handlungsnegation oder der bedingten Norm sowie bezüglich sog. zeitlogischer Aspekte).
Bekanntlich stellen normenlogische Paradoxa im Kontext der angewandten praktischen Philosophie oder der juristischen Methodenlehre überhaupt keine Schwierigkeit dar. Die intuitiven, unscharf definierten Methoden, wie Juristen oder Moralphilosophen normative Fragen behandeln, scheinen in der Lage zu sein, all diese Schwierigkeiten zu vermeiden.¹⁵ Daher könnte eine tiefergreifende Untersuchung dieser Methoden ebenfalls einen wichtigen Beitrag zur Lösung von Problemen im Bereich KI-Sicherheit und Reinforcement Learning leisten.

4. Literatur ^

Alexy, Robert, Theorie der juristischen Argumentation. Die Theorie des rationalen Diskurses als Theorie der juristischen Begründung, 7. Aufl., Suhrkamp, Frankfurt a.M. 2012.

Alpaydin, Ethem, Introduction to Machine Learning, 4^th ed., The MIT Press, Cambridge 2020.

Amodei, Dario/Olah, Chris/Steinhardt, Jacob/Christiano, Paul/Schulman, John/Mané, Dan, Concrete Problems in AI Safety, arXiv:1606.06565v2 [cs.AI], 2016.

Becker, Oskar, Untersuchungen über den Modalkalkül, Anton Hain, Meisenheim am Glan 1952.

Dorffner, Georg, Konnektionismus. Von neuronalen Netzwerken zu einer „natürlichen“ KI, Teubner, Stuttgart 1991.

Gettier, Edmund L., Is Justified Belief Knowledge?, Analysis, 1963, 23, S. 121–123.

Grelling, Kurt, Zur Logik der Sollsaetze, Synthese, 1939, 4. S. 44–47.

Hebb, Donald O., The Organization of Behavior: A Neuropsychological Theory, Psychology Press, Mahwah 2002.

Hermes, Hans, Aufzählbarkeit, Entscheidbarkeit, Berechenbarkeit, 2. Auf. Springer, Heidelberg 1971.

Hilpinen, Risto/McNamara, Paul, Deontic Logic: A Historical Survey and Introduction. In: Gabbay, Dov/Horty, John/Parent, Xavier/Meyden, Ron van der/Torre, Leendert van der (Hrsg.), Handbook of Deontic Logic and Normative Systems. College Publications, London 2013, S. 3–136. Jørgensen, Jørgen, Imperatives and Logic, Erkenntnis, 1938, 7, S. 288–296.

Kalinowski, Georges, Théorie des Propositions Normatives, Studia Logica, 1953, I, S. 147–182.

Klug, Ulrich, Juristische Logik. 3. Auflage, Springer, Berlin 1966.

Knuuttila, Simo/Hallamaa, Olli, Roger Roseth and Medieval Deontic Logic, Logique & Analyse, 1995, 149, S. 75–87.

Leibniz, Gottfried W., Frühe Schriften zum Naturrecht, Hrsg. u. eingeleitet v. H. Zimmerman. Übers. Hubertus Busche, Meiner, Hamburg 2003.

Michie, Donald/Johnston, Rory, The Creative Computer. Machine Intelligence and Human Knowledge, Penguin, Harmondsworth, 1985.

Morscher, Edgar, Normenlogik. Grundlage – Systeme – Anwendungen, Mentis, Paderborn 2012.

Perelman, Chaïm/Olbrechts-Tyteca, Lucie, Traité de l’argumentation. La nouvelle rhétorique, 6^e édition, Edition de l’Université de Bruxelles, Bruxelles, 2008.

Poincaré, Henri, Dernières Pensées, Flammarion, Paris 1917, S. 225.

Prior, Arthur N., The Paradoxes of Derived Obligation, Mind, 1954, vol. 63. S. 64–65.

Ross, Alf, Imperatives and Logic, Theoria, 1941, 7, S. 53–71. (=Philosophy of Science, 1944, vol. 11, no. 1, S. 30–46).

Smullyan, Raymond M., Diagonalization and Self-Reference, Oxford University Press, Oxford 1994.

Sutton, Richard S./Barto, Andrew G., Reinforcement Learning. An Introduction. 2^nd ed., The MIT Press, Cambridge 2018.

Weinberger, Ota, Rechtslogik, Springer, New York 1970.

Wright, Georg H. v., Deontic Logic, Mind, 1951, vol. 60, No. 237, S. 1–15.

1 Für eine Einführung in die Normenlogik vgl. etwa Morscher, Edgar, Normenlogik. Grundlage – Systeme – Anwendungen, Mentis, Paderborn 2012 sowie Hilpinen, Risto/McNamara, Paul, Deontic Logic: A Historical Survey and Introduction. In: Gabbay, Dov/Horty, John/Parent, Xavier/Meyden, Ron van der/Torre, Leendert van der (Hrsg.), Handbook of Deontic Logic and Normative Systems. College Publications, London 2013, S. 3–136.
2 Ein ähnliches Beispiel wird in Jørgensen, Jørgen, Imperatives and Logic, Erkenntnis, 1938, 7, S. 290 angegeben.
3 Diese Analogie liegt den Versuchen in Wright, Georg H. v., Deontic Logic, Mind, 1951, vol. 60, No. 237, S. 1–15, Becker, Oskar, Untersuchungen über den Modalkalkül, Anton Hain, Meisenheim am Glan 1952 und Kalinowski, Georges, Théorie des Propositions Normatives, Studia Logica, 1953, I, S. 147–182 zugrunde. Sie wird auch in Grelling, Kurt, Zur Logik der Sollsaetze, Synthese, 1939, 4. S. 44–47 nahegelegt und kann über Leibniz hinaus (vgl. hierfür Leibniz, Gottfried W., Frühe Schriften zum Naturrecht, Hrsg. u. eingeleitet v. H. Zimmerman. Übers. Hubertus Busche, Meiner, Hamburg 2003, S. 300f.) bis zur mittelalterlichen Philosophie zurückverfolgt werden (vgl. hierfür Knuuttila, Simo/Hallamaa, Olli, Roger Roseth and Medieval Deontic Logic, Logique & Analyse, 1995, 149, S. 75–87).
4 Diese Problematik wird auch von H. Poincaré diskutiert. Vgl. Poincaré, Henri, Dernières Pensées, Flammarion, Paris 1917, S. 225. Zugrunde liegend ist auch das sog. Jørgensen’sche Dilemma: Wenn Normen keine wahrheitsfähigen Ausdrücke sind, der Begriff der logischen Schlussfolgerung aber auf Wahrheitswerten beruht, dann wie kann eine Logik der Normen möglich sein? Vgl. hierfür Jørgensen, Jørgen, Imperatives and Logic, Erkenntnis, 1938, 7, S. 288–296 sowie Weinberger, Ota: Rechtslogik, Springer, New York 1970, S. 217.
5 Vgl. Ross, Alf, Imperatives and Logic, Theoria, 1941, 7, S. 53–71. (=Philosophy of Science, 1944, vol. 11, no. 1, S. 30–46). Vgl. auch Prior, Arthur N., The Paradoxes of Derived Obligation, Mind, 1954, vol. 63. S. 64–65.
6 Nicht nur im Kontext der Normenlogik erweist sich diese logische Struktur als problematisch. Ein berühmtes Problem der epistemischen Logik bzw. der Erkenntnistheorie, das sog. Gettier-Problem basiert auf derselben Struktur. Vgl. Gettier, Edmund L., Is Justified Belief Knowledge?, Analysis, 1963, 23, S. 121–123.
7 S. Knuuttila und O. Hallamaa zeigen, dass dieses Paradoxon bereits in der mittelalterlichen Philosophie diskutiert wurde. Vgl. Knuuttila, Simo/Hallamaa, Olli, Roger Roseth and Medieval Deontic Logic, Logique & Analyse, 1995, 149, S. 75–87.
8 Verwandte Probleme tauchen auch in der KI-Literatur auf. Vgl. etwa das populärwissenschaftliche Michie, Donald/Johnston, Rory, The Creative Computer. Machine Intelligence and Human Knowledge, Penguin, Harmondsworth, 1985, S. 24: “Take the two sentences: ‘Helmets must be worn’ and ‘Dogs must be carried’. They are identical in form, yet they mean totally different things. The would-be traveller on the London Underground needs to know several unspoken things about the way the world works to be confident that he does not have to acquire a dog before boarding the escalator.”
9 Ein Schluss wie z.B. „A ist geboten. Also: Nicht-A ist nicht erlaubt“ oder „A ist geboten. Also: A ist möglich“ spielt i.d.R. keine Rolle bei der Entscheidung eines Rechtsstreits.
10 Für eine detailliertere Darstellung der Funktionsweise universeller Maschinen vgl. etwa Hermes, Hans, Aufzählbarkeit, Entscheidbarkeit, Berechenbarkeit, 2. Auf. Springer, Heidelberg 1971 sowie Smullyan, Raymond M., Diagonalization and Self-Reference, Oxford University Press, Oxford 1994.
11 Für Neuronale Netze vgl. etwa Dorffner, Georg, Konnektionismus. Von neuronalen Netzwerken zu einer „natürlichen“ KI, Teubner, Stuttgart 1991 sowie Alpaydin, Ethem, Introduction to Machine Learning, 4^th ed., The MIT Press, Cambridge 2020.
12 Vgl. Dorffner, Georg, Konnektionismus. Von neuronalen Netzwerken zu einer „natürlichen“ KI, Teubner, Stuttgart 1991, S. 31. Das zugrunde liegende Prinzip geht auf Hebb, Donald O., The Organization of Behavior: A Neuropsychological Theory, Psychology Press, Mahwah 2002 zurück.
13 Vgl. Dorffner, Georg, Konnektionismus. Von neuronalen Netzwerken zu einer „natürlichen“ KI, Teubner, Stuttgart 1991, S. 259f. Dorffner stuft das Reinforcement Learning als eine Art von supervised learning ein. In Kontrast dazu spricht Alpaydin, Ethem, Introduction to Machine Learning, 4^th ed., The MIT Press, Cambridge 2020, S. 564 von learning with a critic: “Reinforcement learning [...] is called ‘learning with a critic’, as opposed to learning with a teacher which we have in supervised learning. A critic differs from a teacher in that it does not tell us what to do but only how well we have been doing in the past; the critic never informs in advance.” Vgl. auch Sutton, Richard S./Barto, Andrew G., Reinforcement Learning. An Introduction. 2^nd ed., The MIT Press, Cambridge 2018, S. 1f.: “Reinforcement learning is learning what to do – how to map situations to actions – so as to maximize a numerical reward signal.”
14 Amodei, Dario/Olah, Chris/Steinhardt, Jacob/Christiano, Paul/Schulman, John/Mané, Dan, Concrete Problems in AI Safety, arXiv:1606.06565v2 [cs.AI], 2016, S. 2.
15 Gemeint sind etwa die Argumentationsmuster der etablierten juristischen Methodenlehre, etwa der Analogieschluss oder die argumenta e contrario bzw. a fortiori. Für Versuche, diese Argumentationsmuster auf allgemeingültige logische Formen zu reduzieren, vgl. Klug, Ulrich, Juristische Logik, 3. Auflage, Springer, Berlin 1966 bzw. Alexy, Robert, Theorie der juristischen Argumentation. Die Theorie des rationalen Diskurses als Theorie der juristischen Begründung, 7. Aufl., Suhrkamp, Frankfurt a.M. 2012. Für eine weniger logikaffine Position vgl. Perelman, Chaïm/Olbrechts-Tyteca, Lucie, Traité de l’argumentation. La nouvelle rhétorique, 6^e édition, Edition de l’Université de Bruxelles, Bruxelles, 2008.

Kontakt

Jusletter IT

KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik

Table of contents

1.

Prolegomena ^

1.1.

Die Normenlogik und ihre Paradoxa ^

1.2.

Neuronale Netze, maschinelles Lernen, Reinforcement Learning ^

2.

KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik ^

3.

Schluss ^

4.

Literatur ^

Lawjobs

News@Weblaw

Per§onalia

Editions Weblaw

Services

Weblaw Inside

Competence

LegalTech

DocEngine

Loggen Sie sich bitte ein!

Angemeldet als

Lawsearch

Kontakt

Jusletter IT

KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik

Table of contents

1.

Prolegomena ^

1.1.

Die Normenlogik und ihre Paradoxa ^

1.2.

Neuronale Netze, maschinelles Lernen, Reinforcement Learning ^

2.

KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik ^

3.

Schluss ^

4.

Literatur ^

Lawjobs

News@Weblaw

Per§onalia

Editions Weblaw

Services

Weblaw Inside

Competence

LegalTech

DocEngine

Community

Verlag

Weiterbildung

Produkte

Hotlinks