Jusletter IT

Eine Kombination von Regelbasierten und Statistischen Verfahren für die Hierarchische Klassifikation von Juristischen Dokumenten

  • Authors: Wolfgang Kienreich / Gunnar Schulze / Elisabeth Lex / Stefan Rapp
  • Category: Articles
  • Region: Austria
  • Field of law: Advanced Legal Informatics Systems and Applications
  • Collection: Tagungsband-IRIS-2013
  • Citation: Wolfgang Kienreich / Gunnar Schulze / Elisabeth Lex / Stefan Rapp, Eine Kombination von Regelbasierten und Statistischen Verfahren für die Hierarchische Klassifikation von Juristischen Dokumenten , in: Jusletter IT 20 February 2013
Anbieter juristischer Inhalte profitieren angesichts von Komplexität und Volumen juristischer Fachpublikationen von automatischen Klassifikationsverfahren. Maschinelle Lernverfahren sind in der Lage, aus der Zuordnung bekannter Dokumente zu Klassen statistische Modelle zu generieren, welche anschließend zur automatischen Klassifikation unbekannter Dokumente verwendet werden können. In einen Kooperationsprojekt zwischen Know-Center und LexisNexis wurden im Jahre 2012 entsprechende Verfahren basierend auf dem Index des österreichischen Bundesrechts entwickelt. Dabei konnte eine signifikante Erhöhung von Qualitätsmerkmalen durch die Integration von statistischen und regelbasierten Ansätzen demonstriert werden.

Inhaltsverzeichnis

  • 1. Übersicht
  • 2. Vorgehensweise
  • 2.1. Ausgangsdaten
  • 2.2. Maschinelle Lernverfahren
  • 2.3. Regelbasierte Verfahren
  • 2.4. Hierarchische Klassifikation
  • 2.5. Integrierter Ansatz
  • 3. Resultate
  • 4. Folgerungen
  • 5. Anerkennung

1.

Übersicht ^

[1]
Anbieter juristischer Inhalte stehen vor der Herausforderung, dem Fachpublikum eine ständig wachsende Menge von juristischen Dokumenten in organisierter und strukturierter Art und Weise über Online-Kanäle zugänglich zu machen. Dabei erweist sich die Verfügbarkeit von Dokument-Metadaten und insbesondere die Zuordnung von Dokumenten zu vordefinierten, hierarchischen Klassifikationsschemata als hilfreich. Angesichts von Komplexität und Volumen juristischer Publikationen sind automatische Verfahren zur hierarchischen Klassifikation relevanter Dokumente erstrebenswert. Im praktischen Einsatz müssen solche Verfahren daten-basierte Regelwerke mit statistischen Modellen kombinieren, um relevante Anforderungen abzubilden und qualitativ hochwertige Resultate zu erzielen.
[2]

Ein in der juristischen Domäne verbreitetes Klassifikationsschema ist der Index des österreichischen Bundesrechts. Dieser unterteilt relevante Gesetzestexte nach einer numerischen Klassifikation in Sachgebiete, Hauptgruppen und Untergruppen. Maschinelle Lernverfahren sind in der Lage, aus der Zuordnung von Dokumenten zu Klassifikationsschemata statistische Modelle basierend auf inhaltlichen Merkmalen zu generieren, die für die automatische Zuordnung weiterer Dokumente verwendet werden können. Entsprechende Methoden wurden in einen Kooperationsprojekt zwischen Know-Center und LexisNexis im Jahre 2011 entwickelt und erprobt. Insbesondere konnte im Sinne einer domänenübergreifenden Klassifikation gezeigt werden, dass Modelle, die aus der Zuordnung von Gesetzen und Urteilen zum Index des österreichischen Bundesrechts generiert werden, für die Zuordnung anderer juristischer Dokumente, wie etwa Rechtsnachrichten, verwendbar sind1.

[3]
Eine detaillierte Analyse der generierten Modelle ergab, dass bestimmte Haupt- und Untergruppen im Index des österreichischen Bundesrechts von statistischen Verfahren nur schwer differenziert werden. Im praktischen Einsatz wurde beobachtet, dass manche Klassifikationsentscheidungen alleine durch Anwendung von Regeln auf Basis von Dokument-Metadaten getroffen werden könnten. Daher wurde als Forschungshypothese formuliert, dass eine Kombination von regelbasierten und statistischen Verfahren die Qualität der maschinellen hierarchischen Klassifikation von juristischen Dokumenten verbessern kann.
[4]
In einer Fortführung des Kooperationsprojektes zwischen Know-Center und LexisNexis wurde diese Hypothese im Jahre 2012 validiert. Als statistische Verfahren wurden Support Vector Machines (SVM) verwendet. Daten-basierte Regeln wurden durch eine an die Syntax der Suchmaschine Lucene angelehnte Regelsprache modelliert. Als inhaltliche Merkmale wurden Hauptwortgruppen und Referenzierungen auf Gesetzestexte verwendet. Die hierarchische Kombination von regelbasierten und statistischen Verfahren zeigte signifikant bessere Qualitätsmaße im Vergleich zu den Ergebnissen des Vorprojektes. Zukünftige Arbeiten werden sich mit Verallgemeinerung der Methodik auf andere hierarchische Schemata befassen.

2.

Vorgehensweise ^

[5]
Sowohl maschinelle Lernverfahren als auch regelbasierte Verfahren operieren mit Mengen von Dokumenten. Jedes Dokument wird im Verfahren durch eine Menge von charakteristischen Merkmalen repräsentiert. Solche Merkmale können etwa Wortvorkommen oder Verweisstrukturen, aber auch bekannte Metadaten wie etwa Quellenangaben, sein. Erster Schritt in der automatisierten Textklassifikation ist daher die Vorverarbeitung von Dokumenten, insbesondere die Umwandlung von textuellen Inhalten und Metadaten in strukturierte Merkmals-Repräsentationen. Anschließend erfolgt die Modellgenerierung, entweder auf Basis von Trainingsbeispielen oder durch Regeldefinition. Schließlich werden neue, zuvor unbekannte Dokumente durch die Modelle zugeordnet und die Qualität der Zuordnung wird überprüft.

2.1.

Ausgangsdaten ^

[6]

Ein in der juristischen Domäne verbreitetes Klassifikationsschema ist der Index des österreichischen Bundesrechts. In der verwendeten Version unterteilt dieser Index relevante Gesetzestexte nach einer numerischen Klassifikation in 9 Sachgebiete, 77 Hauptgruppen und 436 Untergruppen. Die Unterteilung ist strukturell inhomogen: In Einzelfällen werden etwa Hauptgruppen in bis zu 10 Untergruppen unterteilt. Die Unterteilung ist weiters inhaltlich inhomogen: Jedes Sachgebiet enthält eine Hauptgruppe «völkerrechtliche Verträge», die international relevante Dokumente des Sachgebietes sammelt und damit eine inhaltliche Vermischung aller anderen im selben Sachgebiet angesiedelten Hauptgruppen darstellt. In der verwendeten Version des Index waren insgesamt über 15.000 Gesetzestexte und über 100.000 Urteile zugeordnet. Zu jedem Dokument lagen neben den strukturierten Volltexten auch Schlüsselwörter sowie weitere Metadaten vor. Als Vorverarbeitung wurden aus den dem Index des österreichischen Bundesrechts zugeordneten Gesetzestexten im Rahmen einer Informationsextraktion Hauptwörter und Referenzen ermittelt. Die Informationsextraktion erfolgte unter Verwendung einer am Know-Center entwickelten Software-Komponente, die auf dem OpenNLP-Framework der Apache Foundation basiert. Für jedes Dokument wurden die Frequenzen der Merkmalsausprägungen, etwa die Häufigkeit der verwendeten Hauptwörter, ermittelt und nach dem TF/IDF-Schema gewichtet. Dieses Schema sorgte dafür, dass Merkmale geringer Diskriminanz kaum zur Repräsentation eines Dokumentes beitragen2. Resultat des Prozesses war eine zur weiteren Verarbeitung im Klassifikationsprozess geeignete Merkmalsrepräsentation jedes Dokumentes.

2.2.

Maschinelle Lernverfahren ^

[7]
Maschinelle Lernverfahren generieren ein statistisches Modell aus der Merkmalsverteilung in einer Dokumentmenge mit bekannter Klassenzuordnung. Diese Dokumentmenge wird als Trainingsmenge bezeichnet. Um eine hohe Modellqualität sicher zu stellen, sollte die Trainingsmenge in vielerlei Hinsicht repräsentativ sein: Beispielsweise sollte die Anzahl der zugeordneten Dokumente pro Klasse gleichmäßig verteilt sein und es sollten für jede Klasse zugeordnete Dokumente vorhanden sein. Erfahrungsgemäß hat die Auswahl aussagekräftiger Merkmale enormen Einfluss auf die von maschinellen Lernverfahren erzielte Modellqualität.
[8]

In der vorliegenden Arbeit wurden für die Modellgenerierung und Dokumentzuordnung als maschinelles Lernverfahren Support Vector Machines3 eingesetzt. Diese zählen zu den vielseitigsten und am weitesten verbreiteten Verfahren zur Textklassifkation4. Sie gehören zur Gruppe der linearen Klassifikatoren: Ihre Arbeitsweise beruht darauf, eine Hyperebene zu finden, anhand derer Dokumente linear getrennt werden können. Konkret wurde eine auf der bekannten Software-Bibliothek LibLinear beruhende Support Vector Machine verwendet und mit Standard-Werten parametrisiert.

2.3.

Regelbasierte Verfahren ^

[9]
Regelbasierte Verfahren verfügen über keinen impliziten Lernprozess. Stattdessen werden von Domänenexperten Regeln formuliert, die eine bestimmte Kombination von Merkmalsvorkommen fest mit einer bestimmten Menge von möglichen Zuordnungen verknüpfen. Diese Regeln bilden - im Gegensatz zu maschinellen Lernverfahren - transparente, verständliche Modelle und können auch statistisch nicht signifikante Zuordnungsmuster abbilden. Sie sind jedoch nicht in der Lage, automatisiert aus neuen Trainingsdaten Modellkorrekturen vorzunehmen, und die Erstellung eines Regelsatzes, der einen umfangreichen Dokumentbestand vollständig abdeckt, ist kaum möglich.
[10]

In der vorliegenden Arbeit wurde für die Modellierung der Regeln eine Regelsprache entwickelt, die sich an die Syntax des Query Parsers der Suchmaschine Lucene anlehnt. Beispielsweise bedeutet die Regel

 

publication:("RWP" or "RWZ") => 21:1, 32:1, 32:2, 32:4, 33

 

dass ein Artikel, welcher in der Zeitschrift «Rechnungswesen für die Praxis» (RWP) oder «Zeitschrift für Recht und Rechnungswesen» (RWZ) publiziert wurde, nur mehr in eine der Untergruppen «Handelsrecht» (21:1), «Finanzverfahren, allgemeines Abgabenrecht» (32:1), «Steuern vom Einkommen und Ertrag» (32:2), «Steuern vom Umsatz (32:4) oder die Hauptgruppe «Bewertungsrecht» (33) fallen kann. Für jede Kombination von Sachgebieten, Haupt- und Untergruppen, die durch einen Regelsatz definiert wird, kann nun ein statistisches Modell generiert werden, welches nur mehr zwischen diesen Gebieten bzw. Gruppen unterscheiden muss. Somit wird die a-priori-Wahrscheinlichkeit einer richtigen Zuordnung erhöht.

2.4.

Hierarchische Klassifikation ^

[11]
Die beschriebenen Verfahren zur Textklassifikation umfassen grundlegend nur Modelle für die Zuordnungen von Dokumenten zu einer unstrukturierten Menge von Klassen. Für die Berücksichtigung einer Hierarchie von Klassen sind zusätzliche Prozess-Schritte erforderlich. In ersten Experimenten wurde dafür ein Verfahren verwendet, das ein Modell pro Hierarchie-Element generiert. Diese Methode für die hierarchische Textklassifikation ist sehr gebräuchlich5. Ein schwerwiegender Nachteil ist allerdings die Propagierung von auf oberen Ebenen gemachten Klassifikationsfehlern auf die unteren Ebenen. Im Anwendungsfall bedeutet dieser Nachteil, dass ein neues, ungesehenes Dokument, das einmal in das falsche Sachgebiet eingeordnet wurde, innerhalb dieses Sachgebietes nur sehr schlecht weiter zugeordnet werden kann. Experimentell wurde gerade dieser Nachteil als entscheidende Schwäche für den Anwendungsfall identifiziert.

2.5.

Integrierter Ansatz ^

[12]
Zur Validierung der Forschungshypothese wurde die strikte Zuordnung von Modellen zu Hierarchie-Elementen aufgegeben. Stattdessen wurde eine Architektur gewählt, welche die Kombination von regelbasierten und statistischen Klassifikatoren erlaubt. Dabei wurde die bestehende Hierarchie bestehend aus Sachgebieten, Haupt- und Untergruppen um zusätzliche Hierarchie-Elemente erweitert, welche den durch die Regeln definierten Gruppenkombinationen entsprechen. Daraus resultiert ein gerichteter azyklischer Graph, zu dessen Wurzelknoten der regelbasierte Klassifikator und zu jedem inneren Knoten ein statistischer Klassifikator zugeordnet ist. In der Lernphase werden dann die Dokumente derart auf die einzelnen Klassifikatoren aufgeteilt, dass jeder Klassifikator nur die für ihn relevanten Dokumente erhält. Die korrekten Klassen werden dabei automatisch aus den möglichen Pfaden bestimmt, welche ein Dokument im Klassifikationsschritt durchlaufen kann. Die Klassifikation erfolgt dann analog zum bisherigen Ansatz.
[13]
Ein Nachteil dieser Methode ist, dass die kumulative Größe der statistischen Modelle mit zunehmender Anzahl an Regeln steigt, da für jede neu entstandene Gruppenkombination ein eigenes Modell generiert werden muss. Ein weiterer Nachteil ist die vergleichsweise geringe Anzahl an Trainingsdokumenten in den unteren Hierarchieebenen, welcher allerdings durch geeignete Sampling-Verfahren umgegangen werden kann.

3.

Resultate ^

[14]
Zur Erprobung des Ansatzes wurden die verwendeten statistischen Modelle auf einer Menge von 105461 Dokumenten trainiert und die verwendeten regelbasierten Modelle wurden von Domänenexperten in Kenntnis des gewählten Trainings-Datensatzes formuliert. 15303 Dokumente der Trainingsmenge waren Gesetzestexte, bei der verbleibenden Menge handelte es sich um Gerichtsurteile. Die Qualität eines Modells zeigt sich in der Anwendung auf einen Bestand neuer, zuvor nicht bekannter Dokumente. In der Praxis wird eine als Testmenge bezeichnete Anzahl von Dokumenten bekannter Zuordnung probehalber durch das Modell zugeordnet. Aus dem Vergleich der Ergebnisse mit der bekannten Zuordnung lassen sich verschiedene Maßzahlen für die Modellqualität ableiten. Im gegenständlichen Fall war die verbreitete Praxis, die Testmenge im Sinne einer Kreuzvalidierung als Ausschnitt der Trainingsmenge zu definieren, nicht anwendbar, weil der regelbasierte Klassifikationsmechanismus nicht in der Lage ist, selbständig zu lernen. Daher erfolgte die Validierung anhand eines manuell zugeordneten Testdatensatzes von 2989 Artikeln aus einer Auswahl von juristischen Journalen, die ein breites Spektrum an Fachthemen abdeckte. Damit wurde, wie schon im Vorprojekt, eine domänenübergreifende Klassifikation demonstriert.
[15]
Im Vergleich zu den im Vorprojekt erzielten Resultaten konnte eine signifikante Verbesserung der Genauigkeit durch die Verwendung von Gesetzesreferenzen als Merkmale gezeigt werden. Weiters konnte eine zusätzliche Steigerung der Genauigkeit durch den Einsatz eines ersten, einfachen Regelsatzes demonstriert werden.
Accuracy (ohne Regeln)Accuracy (mit Regeln)
Sachgebiete0.8160.830
Hauptgruppen0.6250.644
Untergruppen0.5000.515

Tabelle 1: Experimentell bestimmte Klassifikationsgenauigkeit

[16]
Im Rahmen der Kooperation zwischen Know-Center und LexisNexis wurden die entwickelten Verfahren von Industriepartner LexisNexis in verschiedenen Anwendungsszenarien praktisch getestet und eingesetzt. Dabei zeigte sich eine signifikante Verbesserung der Klassifikationsqualität durch Verwendung des integrierten Verfahrens gerade in den Bereichen, die bei rein statistischer Behandlung problematisch gewesen waren, etwa im Bereich Internationales Recht.

4.

Folgerungen ^

[17]
Die Forschungshypothese der vorliegenden Arbeit war, dass eine Integration von statistischen und regelbasierten Verfahren zur Textklassifikation die Klassifikationsqualität im Kontext des Index des österreichischen Bundesrechts signifikant erhöhen könnte. Diese Hypothese konnte weitgehend verifiziert werden. Kontrollierte Experimente zeigen eine signifikante Zunahme der Qualität, obwohl nur sehr einfache Regelsätze verwendet wurden. Dieses Ergebnis ist auch deshalb beachtlich, weil die modellierten Regeln nicht auf die im statistischen Ansatz als problematisch identifizierten Modellbereiche abstellten. Praxisnah formuliert, wurden von den Domänenexperten viele Regeln spezifiziert, die von den statistischen Modellen durch Lernen ebenfalls identifiziert wurden. Derartige Regeln tragen kaum direkt zur Verbesserungen der Qualitätszahlen bei.
[18]
In der praktischen Anwendung waren die erzielten Resultate von hinreichender Qualität, um dem Industriepartner LexisNexis eine Produktintegration und eine laufende kommerzielle Verwendung der Ergebnisse zu ermöglichen. Eine Fortführung der Arbeiten wird auf die Schwächen der statistischen Modelle abgestimmte Regelwerke verwenden und versuchen, die beschriebene Methodik auf andere hierarchische Schemata abseits des Index des österreichischen Bundesrechts zu übertragen.

5.

Anerkennung ^

[19]
Das Know-Center wird im Rahmen des Österreichischen COMET-Programms – Competence Centers for Excellent Technologies – gefördert. Das Programm steht unter der Schirmherrschaft des Österreichischen Bundesministeriums für Verkehr, Innovation und Technologie, des Österreichischen Bundesministeriums für Wirtschaft und Arbeit und des Landes Steiermark. Die Abwicklung erfolgt durch die Österreichische Forschungsförderungsgesellschaft FFG.

 


 

Wolfgang Kienreich, Know-Center, Wissenserschließung.

 

Gunnar Schulze , Know-Center, Wissenserschließung.

 

Elisabeth Lex, Know-Center, Wissenserschließung.

 

Stefan Rapp , Lexis Nexis, Digitales Content Management.

 


 

 

  1. 1 Kienreich/Lex/Rapp, Maschinelle Lernverfahren für die Automatische Klassifikation von Juristischen Dokumenten, in: Tagungsband IRIS 2012 - 15. Internationale Rechtsinformatik Symposion, Salzburg, Austria, 2012, S. 83ff.
  2. 2 Salton/Buckley, Term-weighting approaches in automatic text retrieval, Information Processing & Management 24 (5): 513–523, 1988.
  3. 3 Schölkopf/Smola/Williamson/Bartlett, New support vector algorithms, Neural Computation, 12, 2000, 1207-1245.
  4. 4 Sebastiani, Machine learning in automated text categorization, ACM Comput. Surv., 34(1) pp. 1-47., 2002.
  5. 5 Dumais/Chen, Hierarchical classification of Web content. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval (2000).