1.
Übersicht ^
Ein in der juristischen Domäne verbreitetes Klassifikationsschema ist der Index des österreichischen Bundesrechts. Dieser unterteilt relevante Gesetzestexte nach einer numerischen Klassifikation in Sachgebiete, Hauptgruppen und Untergruppen. Maschinelle Lernverfahren sind in der Lage, aus der Zuordnung von Dokumenten zu Klassifikationsschemata statistische Modelle basierend auf inhaltlichen Merkmalen zu generieren, die für die automatische Zuordnung weiterer Dokumente verwendet werden können. Entsprechende Methoden wurden in einen Kooperationsprojekt zwischen Know-Center und LexisNexis im Jahre 2011 entwickelt und erprobt. Insbesondere konnte im Sinne einer domänenübergreifenden Klassifikation gezeigt werden, dass Modelle, die aus der Zuordnung von Gesetzen und Urteilen zum Index des österreichischen Bundesrechts generiert werden, für die Zuordnung anderer juristischer Dokumente, wie etwa Rechtsnachrichten, verwendbar sind1.
2.
Vorgehensweise ^
2.1.
Ausgangsdaten ^
Ein in der juristischen Domäne verbreitetes Klassifikationsschema ist der Index des österreichischen Bundesrechts. In der verwendeten Version unterteilt dieser Index relevante Gesetzestexte nach einer numerischen Klassifikation in 9 Sachgebiete, 77 Hauptgruppen und 436 Untergruppen. Die Unterteilung ist strukturell inhomogen: In Einzelfällen werden etwa Hauptgruppen in bis zu 10 Untergruppen unterteilt. Die Unterteilung ist weiters inhaltlich inhomogen: Jedes Sachgebiet enthält eine Hauptgruppe «völkerrechtliche Verträge», die international relevante Dokumente des Sachgebietes sammelt und damit eine inhaltliche Vermischung aller anderen im selben Sachgebiet angesiedelten Hauptgruppen darstellt. In der verwendeten Version des Index waren insgesamt über 15.000 Gesetzestexte und über 100.000 Urteile zugeordnet. Zu jedem Dokument lagen neben den strukturierten Volltexten auch Schlüsselwörter sowie weitere Metadaten vor. Als Vorverarbeitung wurden aus den dem Index des österreichischen Bundesrechts zugeordneten Gesetzestexten im Rahmen einer Informationsextraktion Hauptwörter und Referenzen ermittelt. Die Informationsextraktion erfolgte unter Verwendung einer am Know-Center entwickelten Software-Komponente, die auf dem OpenNLP-Framework der Apache Foundation basiert. Für jedes Dokument wurden die Frequenzen der Merkmalsausprägungen, etwa die Häufigkeit der verwendeten Hauptwörter, ermittelt und nach dem TF/IDF-Schema gewichtet. Dieses Schema sorgte dafür, dass Merkmale geringer Diskriminanz kaum zur Repräsentation eines Dokumentes beitragen2. Resultat des Prozesses war eine zur weiteren Verarbeitung im Klassifikationsprozess geeignete Merkmalsrepräsentation jedes Dokumentes.
2.2.
Maschinelle Lernverfahren ^
In der vorliegenden Arbeit wurden für die Modellgenerierung und Dokumentzuordnung als maschinelles Lernverfahren Support Vector Machines3 eingesetzt. Diese zählen zu den vielseitigsten und am weitesten verbreiteten Verfahren zur Textklassifkation4. Sie gehören zur Gruppe der linearen Klassifikatoren: Ihre Arbeitsweise beruht darauf, eine Hyperebene zu finden, anhand derer Dokumente linear getrennt werden können. Konkret wurde eine auf der bekannten Software-Bibliothek LibLinear beruhende Support Vector Machine verwendet und mit Standard-Werten parametrisiert.
2.3.
Regelbasierte Verfahren ^
In der vorliegenden Arbeit wurde für die Modellierung der Regeln eine Regelsprache entwickelt, die sich an die Syntax des Query Parsers der Suchmaschine Lucene anlehnt. Beispielsweise bedeutet die Regel
publication:("RWP" or "RWZ") => 21:1, 32:1, 32:2, 32:4, 33
dass ein Artikel, welcher in der Zeitschrift «Rechnungswesen für die Praxis» (RWP) oder «Zeitschrift für Recht und Rechnungswesen» (RWZ) publiziert wurde, nur mehr in eine der Untergruppen «Handelsrecht» (21:1), «Finanzverfahren, allgemeines Abgabenrecht» (32:1), «Steuern vom Einkommen und Ertrag» (32:2), «Steuern vom Umsatz (32:4) oder die Hauptgruppe «Bewertungsrecht» (33) fallen kann. Für jede Kombination von Sachgebieten, Haupt- und Untergruppen, die durch einen Regelsatz definiert wird, kann nun ein statistisches Modell generiert werden, welches nur mehr zwischen diesen Gebieten bzw. Gruppen unterscheiden muss. Somit wird die a-priori-Wahrscheinlichkeit einer richtigen Zuordnung erhöht.
2.4.
Hierarchische Klassifikation ^
2.5.
Integrierter Ansatz ^
3.
Resultate ^
Accuracy (ohne Regeln) | Accuracy (mit Regeln) | |
Sachgebiete | 0.816 | 0.830 |
Hauptgruppen | 0.625 | 0.644 |
Untergruppen | 0.500 | 0.515 |
Tabelle 1: Experimentell bestimmte Klassifikationsgenauigkeit
4.
Folgerungen ^
5.
Anerkennung ^
Wolfgang Kienreich, Know-Center, Wissenserschließung.
Gunnar Schulze , Know-Center, Wissenserschließung.
Elisabeth Lex, Know-Center, Wissenserschließung.
Stefan Rapp , Lexis Nexis, Digitales Content Management.
- 1 Kienreich/Lex/Rapp, Maschinelle Lernverfahren für die Automatische Klassifikation von Juristischen Dokumenten, in: Tagungsband IRIS 2012 - 15. Internationale Rechtsinformatik Symposion, Salzburg, Austria, 2012, S. 83ff.
- 2 Salton/Buckley, Term-weighting approaches in automatic text retrieval, Information Processing & Management 24 (5): 513–523, 1988.
- 3 Schölkopf/Smola/Williamson/Bartlett, New support vector algorithms, Neural Computation, 12, 2000, 1207-1245.
- 4 Sebastiani, Machine learning in automated text categorization, ACM Comput. Surv., 34(1) pp. 1-47., 2002.
- 5 Dumais/Chen, Hierarchical classification of Web content. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (2000).