1.
Ausgangslage ^
[1]
Gesetze können als Graphen gesehen werden. Die Artikel1 sind die Ecken; falls zwei Artikel eine bestimmte Gemeinsamkeit aufzeigen, besteht zwischen ihnen eine Kante. So entsteht ein Graph miteinander vernetzter Gesetzesartikel. Diese Tatsache wurde in der Forschung erkannt und ausführlich untersucht2.
[2]
Der Beitrag hat zum Ziel, eine Auswahl der Gesetze aus dem deutschsprachigen Raum als Graphen darzustellen und die Merkmale der Graphen zu vergleichen. Zwecks Analyse werden jeweils die Verfassung, das Datenschutzgesetz, das Zivilgesetzbuch3, die Zivilprozessordnung, das Strafgesetzbuch und die Strafprozessordnung aus der Schweiz, aus Deutschland und aus Österreich in den Fassungen gültig am 27. Dezember 2017 untersucht.
2.
Vorgehen ^
[3]
Jedes Gesetz wurde als HTML / XML von der offiziellen nationalen Website4 heruntergeladen. Aus jeder Datei werden automatisch einzelne Artikel extrahiert und die HTML / XML Tags bereinigt. Anschliessend wird – ebenfalls automatisch – ein reiner Text für die weitere Bearbeitung vorbereitet. Aus jedem Artikeltext werden Stoppwörter, die Wörter «Artikel» und «Absatz» (inkl. derer Abkürzungen) sowie Zahlen, Aufzählungen, §-Zeichen etc. entfernt. Aus dem bereinigten Text jedes Artikels werden vier weitere Versionen erarbeitet: Menge der Wörter (set of words); Menge der gestemmten Wörter; Menge der Paare der Wörter (bigrams); Menge der Paare der gestemmten Wörter. Die Entfernung der Stoppwörter und das Stemming werden mit dem Python NLTK Paket gemacht; andere Bearbeitungsschritte erfolgen mit einem Python Script.
[4]
Für jedes Gesetz werden vier Graph-Darstellungen erstellt, wobei als Inhalt eines Gesetzesartikels jeweils eine der vier Mengen dient. Jeder Artikel wird zur Ecke; falls zwei Artikel ein Element teilen (je nach der verwendeten Menge: Wort, gestemmtes Wort, Wortpaar, gestemmtes Wortpaar), entsteht eine Kante zwischen den Artikeln. Jede Kante wird um zwei weitere Parameter erweitert. Die Distanz misst den absoluten Abstand zwischen den Plätzen der beiden Artikel in der Reihenfolge der Auflistung innerhalb des Gesetzes. Die Stärke misst die Anzahl gemeinsamer Elemente der beiden Artikel. Jeder Graph wird als ungerichteter Graph betrachtet.
[5]
Anschliessend wird für jede Graph-Darstellung eines Gesetzes eine beschreibende Statistik generiert. Für jeden Graphen werden die Anzahl der Artikel und die Dichte des Graphen berechnet. Die Dichte eines Graphen beschreibt das Verhältnis zwischen der Anzahl vorhandener Kanten eines Graphen und der maximal möglichen Anzahl der Kanten in diesem Graphen; je höher die Dichte, desto mehr vernetzt sind die Ecken innerhalb des Graphen. Für ungerichtete Graphen wird sie nach folgender Formel berechnet:
[6]
Weiter werden der minimale, mittlere, mediane und maximale Grad der Ecken (der Grad einer Ecke misst die Anzahl der Verbindungen dieser Ecke mit anderen Ecken) sowie die minimale, mittlere, mediane und maximale Distanz und Stärke der Kanten ermittelt.
3.
Resultate ^
[7]
Alle Resultate sind unter https://github.com/blaisedevaud verfügbar.
[8]
Bei der ersten Durchsicht der Resultate fällt auf, dass Graphen, die mit den Mengen der Wörter oder der gestemmten Wörter als Inhalt der Artikel erstellt wurden, sehr dicht sind und am wenigsten Unterschiede untereinander aufweisen. Hingegen führt die Nutzung der Mengen der Paare der Wörter bzw. der gestemmten Wörter zu weniger dichten Graphen, die mehr Unterschiede innerhalb der gleichen Erstellungsmethode aufweisen. Um gerade diese Unterschiede am besten zeigen zu können, werden im Beitrag die Resultate der restriktivsten Methode, derjenigen, die auf Mengen der Paare der Wörter basiert, verwendet.
[9]
Basierend auf dieser Erstellungsmethode werden anschliessend für jedes Gesetz die Dichte des Graphen, der mittlere Grad pro Ecke sowie die mittlere Distanz und Stärke pro Kante graphisch dargestellt. Auf der x-Achse sind die Gesetze in der alphabetischen Reihenfolge dargestellt, bezeichnet mit Landesabkürzung und gefolgt von der Gesetzesabkürzung; auf der y-Achse sind die entsprechenden Datenwerte dargestellt.
4.
Analyse ^
[10]
Der Vergleich der Graphenmerkmale deutet auf keine erkennbaren Unterschiede hinsichtlich des Herkunftslandes der Gesetze hin. Hingegen weisen Gesetze aus den gleichen Rechtsgebieten eine ähnliche Struktur auf, und zwar in allen drei deutschsprachigen Rechtsordnungen. Es lassen sich drei Gruppen bilden:
[11]
Erstens, Gesetze mit hoher Dichte des Graphen, hohem mittlerem Grad der Ecken und hoher mittlerer Stärke der Kanten. In diese Kategorie fallen vor allem die materiellen Strafgesetze, aber auch – obwohl weniger markant – die Datenschutzgesetze. Zwischen den Vertretern der beiden Rechtsgebiete besteht jedoch ein Unterschied: bei den Datenschutzgesetzen sind die mittleren Distanzen der Kanten eher gering, wohingegen sie bei den materiellen Strafgesetzen eher in der Mitte der beobachteten Werte liegen. Besonders auffallend ist das deutsche Datenschutzgesetz, das die höchste Dichte des Graphen hat.
[12]
Zweitens, Gesetze mit kleiner Dichte des Graphen, kleinem mittleren Grad der Ecken, kleiner mittlerer Stärke und grosser mittlerer Distanz der Kanten. Diese Gruppe bilden die materiellen Zivilgesetze.
[13]
Drittens, Gesetze mit mittleren Werten aller Beobachtungen. Diese umfassen alle formellen Gesetze und die Verfassungen. Eine Ausnahme bilden die Verfassungen aus Deutschland und aus Österreich, die eine höhere Dichte des Graphen und eine höhere mittlere Stärke der Kanten haben als andere Gesetze aus dieser Gruppe.
[14]
Die hohe Vernetzung, hohe Verbindungsstärke und mittlere Verbindungsdistanz der strafrechtlichen materiellen Gesetze ist vermutlich darauf zurückzuführen, dass die Materie sehr stark in Kapitel unterteilt ist sowie dass einerseits Begriffe und ganze Ausdrücke innerhalb derselben Kapitel sehr oft wiederholt werden und andererseits dass Begriffe und Ausdrücke nur Kapitel-spezifisch sind und in anderen Gesetzesteilen nicht mehr erwähnt werden. Es erstaunt, dass gerade die Datenschutzgesetze eine ähnliche Struktur zeigen, und nicht z.B. die formellen Strafgesetze.
[15]
Die schwache Vernetzung, geringe Verbindungsstärke und hohe Verbindungsdistanz bei den materiellen Zivilgesetzen könnten dadurch erklärt werden, dass diese Gesetze die längsten aus allen verglichenen Gesetzen sind. Ausserdem decken die materiellen Zivilgesetze in der geregelten Materie ein sehr breites Spektrum ab, was vermutlich dazu führt, dass die verwenden Begriffe und Ausdrücke nur in wenigen Artikeln zusammen vorkommen und nicht konsequent und repetitiv innerhalb von ganzen Kapiteln.
5.
Fazit ^
[16]
Der Beitrag zeigt, dass Gesetze aus den gleichen Rechtsgebieten in allen drei deutschsprachigen Rechtsordnungen eine ähnliche Graphenstruktur aufweisen. Diese Tatsache bedarf weiterer Untersuchung. Drei Möglichkeiten kommen hierfür insbesondere in Frage: Erstens, Anwendung anderer Methoden zur Erstellung der Verbindung zwischen den Artikeln; zweitens, Erweiterung der Analyse auf weitere Gesetze und Rechtsgebiete; drittens, Untersuchung der Verbindungsmuster im Kontext der Zugehörigkeit der Artikel zur hierarchischen Struktur der Gesetzesteile (Kapitel, Unterkapitel etc.).
6.
Literatur ^
Jörg Landthaler / Bernhard Waltl / Florian Matthes, Unveiling References in Legal Texts: Implicit versus Explicit Network Structures, in: Jusletter IT 25. Februar 2016.
- 1 Das Wort Artikel bezeichnet im Beitrag sowohl die Artikel als auch die §§ als Grundbausteine eines normativen Textes.
- 2 Siehe z.B. Landthaler/Waltl/Matthes (2016) und die dort zitierte Literatur.
- 3 In Bezug auf die Schweiz werden sowohl das Zivilgesetzbuch als auch das Obligationenrecht berücksichtigt.
- 4 Für die Schweiz: https://www.admin.ch/gov/de/start/bundesrecht/systematische-sammlung.html; für Deutschland: http://www.gesetze-im-internet.de/; für Österreich: https://www.ris.bka.gv.at/Bundesrecht/ (alle Websites wurden zuletzt am 6. Januar 2018 geprüft).