KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik
Reinforcement Learning zählt aktuell zu den beliebtesten Ansätzen im Bereich des Machine Learning. Hierbei geht es um den Ansatz, eine Art Belohnungsfunktion zu bestimmen, die der Maschine je nach ihrem Verhalten einen bestimmten Belohnungswert zuordnet. Die Maschine strebt an, diesen Wert zu maximieren. Der normative Charakter dieses Ansatzes springt in die Augen. In diesem Aufsatz wird gezeigt, dass einige Probleme, die im Zusammenhang mit Reinforcement Learning auftauchen (Reward Hacking) sehr enge strukturelle Verwandtschaften mit den sog. Paradoxa der Normenlogik aufweisen.
Table of contents
- 1. Prolegomena
- 1.1. Die Normenlogik und ihre Paradoxa
- 1.2. Neuronale Netze, maschinelles Lernen, Reinforcement Learning
- 2. KI-Sicherheit, Reward Hacking und die Paradoxa der Normenlogik
- 3. Schluss
- 4. Literatur