Jusletter IT

Rechtsdatenbanken und Relevanzsortierung

  • Author: Anton Geist
  • Category: Short Articles
  • Region: Austria
  • Field of law: Advanced Legal Informatics Systems and Applications
  • Collection: Conference proceedings IRIS 2009
  • Citation: Anton Geist, Rechtsdatenbanken und Relevanzsortierung, in: Jusletter IT 1 September 2009
In der modernen Websuche sind seit etwa 10 Jahren mit großem Erfolg Linkanalyse-Technologien im Einsatz, die zu einer Verbesserung der Relevanzsortierung von Trefferlisten führen. Rechtsdatenbanken-Anbieter haben eine Verwertbarkeit dieser Algorithmen bisher mit dem Hinweis auf Unterschiede zwischen den Bereichen Websuche und Rechtsdatenbanken-Recherche abgelehnt. Der Autor sammelt zunächst theoretische Argumente für eine Verwertbarkeit von Linkanalyse-Techniken im Bereich von Rechtsdatenbanken, und erbringt dann mithilfe einer Netzwerkanalyse von 80.195 Entscheidungen sowie 242.078 Rechtssatzdokumenten des österreichischen Obersten Gerichtshofes den praktischen Beweis.

Inhaltsverzeichnis

  • 1. Die Moderne Websuche
  • 2. Websuche vs. Rechtsdatenbanken (?)
  • 3. Netzwerkanalyse von OGH Judikatur
  • 3.1. Skalenfreie Natur des Netzwerkes
  • 3.2. Praktische Verwertbarkeit durch Häufung «relevanter» Entscheidungen
  • 4. Schlussfolgerungen und Diskussion15

1.

Die Moderne Websuche ^

[1]

Im Jahr 1998 legten drei amerikanische Wissenschaftler den Grundstein für die moderne Websuche. Unabhängig voneinander entwickelten die beiden Ph.D.-Studenten Sergey Brin und Larry Page1 , sowie der Informatikprofessor Jon Kleinberg2 so genannte Linkanalyse–Algorithmen. Zu diesem Zeitpunkt war bereits deutlich, dass mit traditionellen Suchmaschinentechnologien, wie sie seit Jahrzehnten für kommerzielle Datenbanken eingesetzt worden waren, in der Welt des World Wide Web nicht das Auslangen gefunden werden konnte3 . Eine bis dahin unerreichte Masse an qualitativ völlig unterschiedlicher Information machte den Einsatz neuer Technologien zur Bewältigung der Informationsflut im WWW zwingend erforderlich4.

[2]

Als Grundlage für ihre Ideen zur Linkanalyse dienten Brin, Page und Kleinberg lange bestehende Konzepte aus der ZitationsanalyseEugene Garfield hatte bereits in den 1950er Jahren vorgeschlagen5, den Einfluss wissenschaftlicher Arbeiten daran zu messen, wie oft diese von anderen Arbeiten zitiert werden. Garfield begründete damit die Zitationsanalyse, deren Anwendungsbereich sich – obwohl ihr Einsatz im Detail nach wie vor umstritten ist – bis heute laufend erweitert hat. Die Überlegung «Je mehr Zitate, desto mehr Einfluss.» übertrugen die drei genannten Forscher auf die Webumgebung und begannen, allen von einer Suchmaschine indizierten Seiten durch eine Analyse der Hyperlinks jeder Seite so genannte Ranking-Werte zuzuweisen. Diese Werte werden bei der Suche vor allem für die Relevanzsortierung verwendet, das bedeutet für die Reihung der durch Schlagwortsuche erstellten Trefferlisten nach absteigender «Relevanz» der Treffer. In einem ersten Schritt ist der Ranking-Wert einer Webseite bei diesen Verfahren umso höher, je mehr andere Seiten auf die zu bewertende Seite verweisen. Bereits in den Linkanalyse-Grundmodellen war dies freilich lediglich die unterste Stufe extrem komplexer Ranking-Algorithmen, und aus naheliegenden Gründen sind die Details der heute noch komplizierteren Modelle auch gut gehütete Geschäftsgeheimnisse der kommerziellen Suchmaschinenanbieter.6

2.

Websuche vs. Rechtsdatenbanken (?) ^

[3]

Dieser kurze Ausflug in die moderne Websuche reicht jedoch aus, um den Gegensatz zwischen der Web-Suchtechnologie und der von den Rechtsdatenbanken eingesetzten Technik heraus zu arbeiten. Rechtsdatenbankenanbieter, insbesondere in Österreich, verweisen gerne auf die völlig unterschiedlichen Datenbestände der Dokumentensammlungen im Web einerseits, und in ihren juristischen Datenbanken andererseits. Während die Inhalte in Rechtsdatenbanken eine redaktionelle Kontrolle durchlaufen, erfassen Websuchmaschinen Inhalte von vollkommen unterschiedlicher Qualität. Aufgrund dieses Umstandes verneinen sie eine Übertragbarkeit der Web-Suchtechnologien auf Rechtsdatenbanken.

[4]

Ich vertrete in diesem Punkt eine andere Auffassung, obwohl ich den genannten – auch international7 hervorgehobenen – Unterschied zwischen redaktionell kontrollierten Rechtsdatenbank-Inhalten sowie dem «wild zusammengewürfelten» World Wide Web-Content überhaupt nicht anzweifle. Diesen Unterschied jedoch heranzuziehen, um eine Nutzbarkeit von Web-Suchtechnologien für juristische Datenbanken generell zu verneinen, halte ich für einen Fehler. Durch die amerikanische STAIRS Studie8 mit einem Budget von über 500.000 Euro (inflationsbereinigt, also gemessen am heutigen Geldwert) wurde bereits vor über zwei Jahrzehnten gezeigt, dass die auch heute noch von den meisten Rechtsdatenbanken eingesetzten Booleschen Suchsysteme in Bezug auf ihre Suchleistung Vieles zu wünschen übrig lassen.

[5]

Bei genauerer Betrachtung der Kurzbeschreibung und des Hintergrundes der Linkanalyse springen – bei allen Unterschieden zwischen dem Web und «der» Rechtsdatenbank – offenkundige Gemeinsamkeiten ins Auge. Juristische Texte zeichnen sich durch eine einzigartige Fülle an Querverweisen aus.. Dass trotzdem alle bestehenden juristischen Suchmaschinen in Österreich (und viele international) diese Querverbindungen zwischen den von ihnen gespeicherten Dokumenten in keinster Weise nutzen, um Trefferlisten zu sortieren, halte ich für ein Versäumnis9.

3.

Netzwerkanalyse von OGH Judikatur ^

[6]

Ich zeige durch eine Netzwerkanalyse von 80'195 Entscheidungen sowie 242'078 Rechtssatzdokumenten des österreichischen Obersten Gerichtshofes, dass bereits der Einsatz ganz elementarer Methoden der Zitationsanalyse zu entscheidenden Verbesserungen der Rechtsdatenbanken führen könnte. Konkret zeigte ich einen klaren Zusammenhang zwischen der Anzahl an Rechtssätzen, von denen eine Entscheidungen zitiert wird, und der praktischen Relevanz dieser Entscheidung. Nachdem ich diese «praktische Relevanz» an der Publikation in einer amtlichen Entscheidungssammlung festmache, stimmt sie mit gängigen Methoden der juristischen Recherche überein.

Abbildung 1: Verteilungsgraphen der Netzwerke aus OGH Rechtssätzen und dazugehörigen Entscheidungstexten

3.1.

Skalenfreie Natur des Netzwerkes ^

[7]

Der in Abbildung 1 im Hintergrund sichtbare graue Verteilungsgraph zeigt alle am 1. Januar 2009 im Rechtsinformationssystem RIS für die Jahre 1985 bis 2008 abrufbaren Entscheidungen des Obersten Gerichtshofes. Die 80'195 Entscheidungen sind auf der X-Achse angeordnet, je nachdem, wie viele Rechtssatzdokumente ein Zitat zu der jeweiligen Entscheidung enthalten. Diese Informationen habe ich mithilfe von selbst programmierten Python-Skripten aus mehr als zwei Gigabyte HTML-Rohdaten extrahiert sowie ausgewertet. Wir können erkennen, dass auf die meisten OGH Entscheidungen in gar keinen (19%), oder nur sehr wenigen (auf 68% aller Entscheidungen in weniger als vier) Rechtssatzdokumenten verwiesen wird. Umgekehrt finden sich einige wenige Entscheidungen, die in sehr vielen Rechtssatzdokumenten erwähnt werden. Diese charakteristische Form wird in der Netzwerktheorie als «skalenfreies Netz» bezeichnet, was bereits eine interessante Beobachtung zulässt. Verschiedene Wissenschaftler10,11 haben Ende der 1990er Jahre gezeigt, dass auch das World Wide Web ein skalenfreies Netz darstellt, und diese charakteristische Netzwerkstruktur wird als die Grundlage für das Funktionieren der Linkanalyse ausgemacht. Die große Ähnlichkeit in der Netzwerkstruktur zwischen WWW einerseits, und meinem Judikatur-Netzwerk andererseits, legt eine Anwendbarkeit von Web-Suchtechnologien für Rechtsdatenbanken meines Erachtens bereits sehr nahe.

[8]

Was an dieser Stelle allerdings noch fehlt, ist eine Überprüfung der errechneten Netzwerkstruktur in Bezug auf juristische Relevanzkriterien. Mit anderen Worten: Die Struktur des Netzwerks aus OGH Entscheidungstexten und Rechtssatzdokumenten sagt noch nichts darüber aus, ob «relevante» Entscheidungen in einem Bereich des Netzwerkes gehäuft auftreten und somit von einem «Ranking-Algorithmus» (also einer Sortierung nach Relevanz) in Trefferlisten erfolgreich «hochgereiht» werden können.

[9]

Zunächst müssen wir diesbezüglich feststellen, dass es trotz ihrer elementaren Bedeutung für die Evaluierung von Suchmaschinen schlicht unmöglich ist, allgemein gültige Relevanzaussagen über Dokumentensammlungen zu treffen12 . Relevanz hat einen zwingend subjektiven Charakter und ist von Fall zu Fall unterschiedlich. Diese Subjektivität der Relevanz bildet in Wahrheit eine Grundlage der Juristerei: Eine juristische Fertigkeit besteht genau darin, die Einschlägigkeit von Gesetzes- und Judikaturtexten zu bestimmten Sachverhalten in die eine oder andere Richtung zu argumentieren. Wollen wir juristische Suchmaschinen bewerten, so müssen wir trotzdem versuchen (genauso wie jedes juristische Lehrbuch und jeder Gesetzeskommentar), möglichst allgemeingültige Bewertungen für abrufbare Dokumente zu finden. Im Fall von OGH Judikatur gibt es eine «Amtliche Sammlung Zivilrecht – SZ»13 in der der Gerichtshof selbst eine Auswahl «relevanter» Entscheidungen veröffentlicht. Eine Selektion wie diese, zumal sie – wie alle anderen von mir verwendeten Texte - im Rechtsinformationssystem frei abrufbar ist, stellt meines Erachtens die insgesamt beste frei verfügbare Selektion «relevanter» Entscheidungen dar.

3.2.

Praktische Verwertbarkeit durch Häufung «relevanter» Entscheidungen ^

[10]

Der in Abbildung 1 im Vordergrund sichtbare kleinere, schwarze Verteilungsgraph stellt jene 4.842 Entscheidungen des Obersten Gerichtshofes (nochmals) dar, die für die Jahrgänge 1985 bis 2006 in die Amtlichen SZ Sammlungen aufgenommen wurden. Sofort fällt auf, dass die Verteilung dieser Entscheidungen auf alle Entscheidungen des Gerichtshofes (grauer Verteilungsgraph im Hintergrund) alles andere als gleichmäßig erfolgt. Während die meisten aller Entscheidungen in keinen Rechtssatzdokumenten erwähnt werden, gibt es praktisch keine «SZ-Entscheidungen», die in keinen Rechtssätzen erwähnt werden. Eine genauere Betrachtung zeigt, dass der Anteil der «relevanten» SZ-Entscheidungen an allen Entscheidungen (das heißt das Verhältnis zwischen schwarzen und grauen Entscheidungen an einem bestimmten Punkt der X-Achse) bis zum Wert von etwa 15 Rechtssätzen kontinuierlich ansteigt und dann in etwa konstant bleibt.

[11]

Zum Schluss möchte ich eine exemplarische Möglichkeit aufzeigen, den von mir errechneten (grauen) Verteilungsgraphen für die Relevanzsortierung in Rechtsdatenbanken heranzuziehen: Würde ein Rechtsdatenbankenanbieter OGH Entscheidungen ohne (verknüpfte) Rechtssatzdokumente («Entscheidungen ohne Rechtssätze») automatisch an das Ende jeder Trefferliste reihen, so würde eine Plus/Minus-Rechnung Folgendes ergeben: Im Durchschnitt machen «Entscheidungen ohne Rechtssätze» 19% aller Entscheidungen – und somit aller Trefferlisten - aus, diese 19% enthalten aber im Durchschnitt weniger als 1% relevante (schwarze) Entscheidungen. Im Durchschnitt würde somit einem Reihungs-Gewinn von 19% ein Reihungs-Verlust von weniger als 1% gegenüber stehen. Von einem «Reihungs-Verlust» spreche ich deshalb, weil durch eine Relevanzsortierung keine Treffer aus der Trefferliste entfernt werden. Es wird lediglich die Reihung der Ergebnisse verändert.

4.

Schlussfolgerungen und Diskussion15 ^

Linkanalyse-Algorithmen, wie sie in der modernen Websuche eingesetzt werden, könnten – an das juristische Umfeld angepasst – im Bereich der Rechtsdatenbanken zu einer entscheidenden Verbesserung der Trefferlistensortierung, und somit der Retrieval-Qualität, führen. Schon eine theoretische Betrachtung legt diesen Schluss nahe, die von mir durchgeführte Netzwerkanalyse der gesamten OGH Judikatur zwischen 1985 und 2008 erbringt schließlich – durch den Vergleich mit der Amtlichen SZ-Sammlung – den Beweis.

 



Anton Geist, Projektassistent, Arbeitsgruppe Rechtsinformatik, Universität Wien
Schottenbastei 10-16/2/5, 1010 Wien; AT
anton.geist@univie.ac.athttp://www.antongeist.com

Ich möchte mich bei Ulrich Bayer (http://www.iseclab.org/people/ulli/) für seine unermüdliche Unterstützung bei der Skript-Programmierung bedanken.

 

  1. 1 Brin, Sergey; Page, Lawrence, The anatomy of a large-scale hypertextual Web search engine. In: Computer Networks (and ISDN Systems), Jahrgang 30, Heft 1-7, S. 107-117. Online verfügbar unter http://dx.doi.org/10.1016/S0169-7552(98)00110-X (1998).
  2. 2 Kleinberg, Jon M., Authoritative sources in a hyperlinked environment. In: Journal of the ACM, Jahrgang 46, Heft 5, S. 604-632. Online verfügbar unter http://dx.doi.org/10.1145/324133.324140 (1999).
  3. 3 Henzinger, Monika, Hyperlink analysis on the world wide web. In: HYPERTEXT ‘05: Proceedings of the sixteenth ACM conference on Hypertext and hypermedia. New York, NY, USA: ACM, S. 1-3. Online verfügbar unter http://dx.doi.org/10.1145/1083356.1083357 (2005).
  4. 4 Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich, Introduction to information retrieval. Cambridge: Cambridge University Press. ISBN 9780521865715, S. 387 (2008).
  5. 5 Garfield, Eugene, Citation Indexes for Science - A New Dimension in Documentation through Association of Ideas. In: Science, Jahrgang 122, Heft 3159, Seiten 108-111. Online verfügbar unter http://dx.doi.org/10.1126/science.122.3159.108 (1955).
  6. 6 Langville, Amy N.; Meyer, Carl D., Google's PageRank and beyond. The science of search engine rankings. Princeton, NJ: Princeton University Press. ISBN 9780691122021 (2006).
  7. 7 Jackson, Peter, Artificial Intelligence and Information Retrieval. In: Searcher, Jahrgang 13, Heft 1, Seiten 29-33 (2005).
  8. 8 Blair, David C.; Maron, M.E., An evaluation of retrieval effectiveness for a full-text document-retrieval system. In: Communications of the ACM, Jahrgang 28, Heft 3, Seiten 289-299. Online verfügbar unter http://dx.doi.org/10.1145/3166.3197 (1985).
  9. 9 Moens, Marie-Francine, Retrieval of Legal Documents: Combining Structured and Unstructured Information. In: Dobreva, Milena (Herausgeber): From author to reader. Challenges fro the digital content chain ; proceedings of the 9th ICCC International Conference on Electronic Publishing, Leuven, Arenberg Castle, June 8-10, 2005. Leuven: Peeters, Seiten 223-228 (2005).
  10. 10 Barabási, Albert-László; Albert, Réka, Emergence of Scaling in Random Networks. In: Science, Jahrgang 286, Heft 5439, Seiten 509-512. Online verfügbar unter http://dx.doi.org/10.1126/science.286.5439.509 (1999).
  11. 11 Kumar, Ravi; Raghavan, Prabhakar; Rajagopalan, Sridhar; Tomkins, Andrew, Trawling the Web for emerging cyber-communities. In: Computer Networks (and ISDN Systems), Jahrgang 31, Heft 11-16, Seiten 1481-1493. Online verfügbar unter http://dx.doi.org/10.1016/S1389-1286(99)00040-7 (1999).
  12. 12 Saracevic, Tefko, Information science. In: Journal of the American Society for Information Science, Jahrgang 50, Heft 12, Seiten 1051-1063. Online verfügbar unter <1051::AID-ASI2>3.0.CO;2-Z target=_blank>http://dx.doi.org/10.1002/(SICI)1097-4571(1999)50:12<1051::AID-ASI2>3.0.CO;2-Z (1999).
  13. 13 Österreich / Oberster Gerichtshof, Entscheidungen des Österreichischen Obersten Gerichtshofes in Zivilsachen. amtlich veröffentlicht. Wien: Verlag Österreich (1922-).