1.
Übersicht ^
[1]
Anbieter juristischer Inhalte stellen dem Fachpublikum eine ständig wachsende Menge von juristischen Dokumenten über Online-Zugänge zur Verfügung. Eine zentrale Anforderung ist in diesem Zusammenhang die rasche und zuverlässige Identifikation relevanter Information. Dabei erweist sich die Verfügbarkeit von Dokument-Metadaten und insbesondere die Zuordnung von Dokumenten zu vordefinierten Klassifikationsschemata als hilfreich. Angesichts von Komplexität und Volumen juristischer Publikationen sind automatische Verfahren zur Klassifikation relevanter Dokumente erstrebenswert.
[2]
Maschinelle Lernverfahren sind in der Lage, aus den Klassifikationselementen zugeordneten Dokumenten abstrakte Modelle zu generieren, die für die automatische Zuordnung weiterer Dokumente zum Klassifikationsschema verwendet werden können. Beispielsweise kann ein entsprechendes Verfahren aus einer hinreichenden Menge von juristischen Dokumenten zum Thema Steuerrecht die für steuerrechtliche Texte charakteristischen inhaltlichen Merkmale ableiten. Auf Basis des entsprechenden Modells kann anschließend für zuvor unbekannte Dokumente entschieden werden, ob diese dem Thema Steuerrecht zugehörig sind oder nicht.
[3]
Die Zuverlässigkeit solcher Verfahren hängt allerdings davon ab, wie sehr sich die unbekannten Dokumente inhaltlich von jenen Dokumenten unterscheiden, die für die Modellgenerierung verwendet wurden. Nur eine große, repräsentative Menge bereits zugeordneter Dokumente liefert ein zuverlässiges Modell. In der juristischen Domäne bietet sich in diesem Zusammenhang der Index des österreichischen Bundesrechts an. Die Forschungshypothese war, dass Modelle, die aus der Zuordnung von Gesetzestexten zum Index generiert werden, auch für die Zuordnung von anderen juristischen Dokumenten, etwa Urteilen oder Kommentaren, verwendet werden können.
2.1.
Theorie ^
[4]
Maschinelle Lernverfahren operieren mit Mengen von Dokumenten. Jedes Dokument wird im Verfahren durch eine Menge von charakteristischen Merkmalen repräsentiert. Solche Merkmale können etwa Wortvorkommen oder Verweisstrukturen sein. Erster Schritt in der automatisierten Textklassifikation ist daher die Vorverarbeitung von Dokumenten, insbesondere die Umwandlung von textuellen Inhalten in strukturierte Merkmals-Repräsentationen. Erfahrungsgemäß hat die Auswahl aussagekräftiger Merkmale enormen Einfluss auf die Modellqualität.
[5]
Der eigentliche Lernprozess besteht in der Generierung eines statistischen Modells aus der Merkmalsverteilung in einer Dokumentmenge mit bekannter Klassenzuordnung. Diese Dokumentmenge wird als Trainingsmenge bezeichnet. Um eine hohe Modellqualität sicher zu stellen, sollte die Trainingsmenge in vielerlei Hinsicht repräsentativ sein: Beispielsweise sollte die Anzahl der zugeordneten Dokumente pro Klasse gleichmäßig verteilt sein und es sollten für jede Klasse zugeordnete Dokumente vorhanden sein.
[6]
Die Qualität eines Modells zeigt sich in der Anwendung auf einen Bestand neuer, zuvor nicht bekannter Dokumente. In der Praxis wird eine als Testmenge bezeichnete Anzahl von Dokumenten bekannter Zuordnung probehalber durch das Modell zugeordnet. Aus dem Vergleich der Ergebnisse mit der bekannten Zuordnung lassen sich verschiedene Maßzahlen für die Modellqualität ableiten. Wird die Testmenge als Teilmenge der Trainingsmenge definiert, so ergeben sich Aussagen über die grundlegende Validität von gewählten Verfahren und Merkmalsrepräsentationen.
2.2.
Ausgangsdaten ^
[7]
Ein in der juristischen Domäne verbreitetes Klassifikationsschema ist der Index des österreichischen Bundesrechts. In der verwendeten Version unterteilt dieser Index relevante Gesetzestexte nach einer numerischen Klassifikation in 9 Sachgebiete, 77 Hauptgruppen und 436 Untergruppen. Die Unterteilung ist strukturell inhomogen: In Einzelfällen werden etwa Hauptgruppen in bis zu 20 Untergruppen unterteilt. Die Unterteilung ist weiters inhaltlich inhomogen: Jedes Sachgebiet enthält eine Hauptgruppe „völkerrechtliche Verträge“, die international relevante Dokumente des Sachgebietes sammelt und damit eine inhaltliche Vermischung aller anderen im selben Sachgebiet angesiedelten Hauptgruppen darstellt. In der verwendeten Version des Index waren insgesamt über 13.000 Dokumente zugeordnet. Zu jedem Dokument lagen neben den strukturierten Volltexten auch Schlüsselwörter sowie weitere Metadaten vor.
2.3.
Vorverarbeitung ^
[8]
Die Vorverarbeitung der Dokumente hatte die Aufgabe, aus den Volltexten und Metadaten der Ursprungsdokumente eine Merkmalsrepräsentation zu berechnen, die jedes Dokument in einer für die Modellgenerierung geeigneten Form darstellen sollte. Dazu wurden aus den dem Index des österreichischen Bundesrechts zugeordneten Gesetzestexten im Rahmen einer Informationsextraktion Hauptwörter und Referenzen ermittelt. Hauptwörter beschreiben im Allgemeinen den Inhalt und Referenzen den Kontext von Dokumenten. Daher bestand die Hoffnung, dass eine Kombination dieser Merkmale für die automatische Klassifikation juristischer Dokumente geeignet sein würde.
[9]
Die Informationsextraktion erfolgte unter Verwendung einer am Know-Center entwickelten Software-Komponente, die auf dem OpenNLP-Framework der Apache Foundation basiert. Für jedes Dokument wurden die Frequenzen der Merkmalsausprägungen, etwa die Häufigkeit der verwendeten Hauptwörter, ermittelt. Die resultierende Repräsentation wurde unter Verwendung der globalen Frequenz der Merkmalsausprägungen (TF) und der inversen Ausprägungsfrequenz pro Dokument (IDF) gewichtet. Dieses Gewichtungs-Schema sorgte dafür, dass Merkmale geringer Diskriminanz kaum zur Repräsentation eines Dokumentes beitragen1 . Resultat des Prozesses war eine vektorielle, zur weiteren Verarbeitung im Klassifikationsprozess geeignete Merkmalsrepräsentation jedes Dokumentes.
2.4.
Textklassifikation ^
[10]
[11]
Support Vector Machines zählen zu den vielseitigsten und am weitesten verbreiteten Verfahren zur Textklassifikation4 . Sie gehören zur Gruppe der linearen Klassifikatoren: Ihre Arbeitsweise beruht darauf, eine Hyperebene zu finden, anhand derer Dokumente linear getrennt werden können. Für die vorliegende Arbeit wurde eine auf der bekannten Software-Bibliothek LibLinear5 beruhende Support Vector Machines verwendet und mit Standard-Werten parametrisiert.
[12]
Das Class-Feature-Centroid-Verfahren ist ein relativ neuer und unkonventioneller Ansatz. Es gehört zur Gruppe der zentroidbasierten Klassifikatoren: Jede Klasse wird durch den Zentroid-Vektor der Merkmalsvektoren aller der Klasse zugeordneten Dokumente repräsentiert6. Für die vorliegende Arbeit wurde eine am Know-Center unter Verwendung unterschiedlicher Standard-Bibliotheken entwickelte Implementierung des Class-Feature-Centroid-Verfahrens angewandt und mit Standard-Werten parametrisiert.
2.5.
Hierarchische Klassifikation ^
[13]
Die beschriebenen Verfahren zur Textklassifikation generieren grundlegend nur Modelle für die Zuordnungen von Dokumenten zu einer unstrukturierten Menge von Klassen. Für die Berücksichtigung einer Hierarchie von Klassen sind zusätzliche Prozess-Schritte erforderlich. Das dafür angewandte Verfahren beruht auf der Generierung eines Modelles pro Hierarchie-Element. Die Klassifikations-Entscheidung für ein neues, unbekanntes Dokument erfolgt in mehreren Schritten: Zunächst trifft ein übergeordnetes Modell eine Entscheidung für ein Sachgebiet. Anschließend trifft das für das Sachgebiet generierte Modell eine Entscheidung für eine Hauptgruppe und das für die Hauptgruppe generierte Modell eine Entscheidung für eine Untergruppe.
[14]
Diese Methode für die hierarchische Textklassifikation ist sehr gebräuchlich7 . Der Vorteil dieser Methode ist, dass beliebige Verfahren zur Textklassifikation zum Einsatz kommen können und dass Besonderheiten einzelner Hierarchie-Bereiche durch die getrennte Modellgenerierung gut berücksichtigt werden können. Ein schwerwiegender Nachteil ist die Propagierung von auf oberen Ebenen gemachten Klassifikationsfehlern auf die unteren Ebenen. Im Anwendungsfall bedeutet dieser Nachteil, dass ein neues, ungesehenes Dokument, das einmal in das falsche Sachgebiet eingeordnet wurde, innerhalb dieses Sachgebietes nur sehr schlecht weiter zugeordnet werden kann.
2.6.
Validierung ^
[15]
Zur Validierung der verwendeten Merkmalsrepräsentationen und Lernverfahren wurde zunächst eine Kreuzvalidierung der dem Index zugeordneten Gesetzestexte auf Ebene der Sachgebiete berechnet. Tabelle 1 zeigt die Klassifikationsgenauigkeit ausgedrückt durch zwei gebräuchliche Maße. Accuracy bezeichnet die Anzahl der korrekt zugeordneten Dokumente. f-Measure bezeichnet das harmonische Mittel zwischen Anzahl der korrekt zugeordneten und überhaupt zugeordneten Dokumente. Eine Interpretation der Ergebnisse ist, dass 96% der überhaupt zugeordneten Dokumente dem korrekten Sachgebiet zugeordnet wurden, was im Rahmen bekannter Textklassifikations-Probleme ein hervorragendes Resultat darstellt.
Evaluierungsmaß | Wert |
Accuracy | 0.962 |
f-Measure | 0.827 |
Tabelle 1: Kreuzvalidierung über Sachgebiete
2.7.
Experimente ^
[16]
Nachdem die Validität des gewählten Ansatzes durch die Kreuzvalidierung auf oberster Ebene bestätigt war, wurde ein hierarchisches Klassifikationsmodell basierend auf allen drei Ebenen des Index des österreichischen Bundesrechts generiert. Dieses Modell wurde anschließend verwendet, um Test-Dokumentmengen aus anderen Textdomänen, wie etwa juristischen Kommentaren und Urteilen, automatisch zu klassifizieren.
[17]
Auf Ebene der 9 Sachgebiete lieferte die Klassifikation von Urteilen eine Genauigkeit von rund 70% und die Klassifikation von Kommentaren eine Genauigkeit von rund 80%. Auf Ebene der 77 Hauptgruppen lieferte die Klassifikation von Urteilen eine Genauigkeit von im Schnitt rund 30% und die Klassifikation von Kommentaren eine Genauigkeit von im Schnitt rund 50%. Auf Ebene der 436 Untergruppen lieferte die Klassifikation von Urteilen eine Genauigkeit von im Schnitt rund 20% und die Klassifikation von Kommentaren eine Genauigkeit von im Schnitt rund 10%. Aus diesen Ergebnissen lässt sich eine Gesamtgenauigkeit von rund 40% für die hierarchische Klassifikation von Urteilen von rund 47% für die hierarchische Klassifikation von Kommentaren ableiten.
3.
Folgerungen ^
[18]
Die Forschungshypothese der vorliegenden Arbeit war, dass Modelle zur statistischen Textklassifikation aus der Zuordnung von Gesetzestexten zum Index des österreichischen Bundesrechts generiert und erfolgreich für die Zuordnung von anderen juristischen Dokumenten, etwa Urteilen oder Kommentaren, verwendet werden können. Diese Hypothese konnte mit Einschränkungen verifiziert werden.
[19]
Die Anwendung der gewählten Verfahren auf die Ausgangsdaten aus dem Index des österreichischen Bundesrechts im Rahmen einer Kreuzvalidierung lieferte sehr hohe Qualitätswerte. Damit können die gewählten Verfahren als geeignet und die dem Index zugeordneten Gesetzestexte als sinnvoll für die Generierung statistischer Modelle betrachtet werden. Die Verwendung der generierten Modelle auf neue, zuvor unbekannte Dokumentmengen aus dem Bereich der juristischen Kommentare und Urteile zeigte eine starke Abnahme der Zuordnungsqualität insbesondere auf Ebene der Untergruppen.
[20]
Die Qualitätsdifferenz zwischen der Evaluierung durch Kreuzvalidierung und der Anwendung auf Kommentare und Urteile liegt mit hoher Wahrscheinlichkeit in Unterschieden in demn in Gesetzen, Kommentaren und Urteilen verwendeten Vokabularen begründet. Erste Experimente, in denen die in Kommentaren und Urteilen referenzierten Gesetze durch die entsprechenden Textpassagen erweitert wurden, zeigten eine deutliche Steigerung der Genauigkeit. Die rasche Abnahme der Qualität auf Ebene der Haupt- und Untergruppen liegt mit hoher Wahrscheinlichkeit in der mangelnden Balanciertheit der Trainingsdokumente begründet.
[21]
Eine Fortführung der Arbeiten wird versuchen, Expertenwissen in Form von Regeln mit statistischen Klassifikationsverfahren zu verbinden. Insbesondere soll im Rahmen der hierarchischen Klassifikation nicht mehr ein Modell pro Hierarchie-Ebene sondern ein Modell pro balancierter Gruppe angewandt werden. Eine weitere Verbesserung der Ergebnisse wird auch durch das automatische Auflösen von Referenzen auf Gesetzestexte erfolgen.
4.
Anerkennung ^
[22]
Das Know-Center wird im Rahmen des Österreichischen COMET-Programms – Competence Centers for Excellent Technologies – gefördert. Das Programm steht unter der Schirmherrschaft des Österreichischen Bundesministeriums für Verkehr, Innovation und Technologie, des Österreichischen Bundesministeriums für Wirtschaft und Arbeit und des Landes Steiermark. Die Abwicklung erfolgt durch die Österreichische Forschungsförderungsgesellschaft FFG.
- 1 Salton, G./Buckley, C., Term-weighting approaches in automatic text retrieval, in: Information Processing & Management 24 (5): 513–523 (1988).
- 2 Schölkopf, B./Smola, A./Williamson, R./Bartlett, P.L., New support vector algorithms, in: Neural Computation, 12 , (2000), 1207–1245 (2000).
- 3 Guan, H./Zhou, J./Guo M., A class-feature-centroid classifier for text categorization, in: Proceedings of Int. Conf. on World Wide Web (WWW), New York, USA. (2009).
- 4 Sebastiani, F., Machine learning in automated text categorization, in: ACM Comput. Surv., 34 (1): pp. 1–47 (2002).
- 5 Fan, R. E. et al., LIBLINEAR: A Library for Large Linear Classification, in: Journal of Machine Learning Research, 9 (2008): pp. 1871–1874 (2008).
- 6 Han, E. H./ Karypis G., Centroid-based document classification: Analysis and experimental results,. in: Proc. of European Conf. on Principles of Data Mining and Knowledge Discovery (PKDD),. London, UK:, pp. 424–431 (2000).
- 7 Dumais, S./Chen, H., Hierarchical classification of Web content,. Iin: Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (2000).