Jusletter IT

Klassifikation und Ranking von Dokumenttypen im juristischen Wissenskorpus

  • Author: Erich Schweighofer
  • Category: Articles
  • Region: Austria
  • Field of law: Law and Language
  • Collection: Conference Proceedings IRIS 2016
  • Citation: Erich Schweighofer, Klassifikation und Ranking von Dokumenttypen im juristischen Wissenskorpus, in: Jusletter IT 25 February 2016
Ein starker Wandel kennzeichnet die juristische Veröffentlichung und Publikationskultur; neben sofortiger Verfügbarkeit ist die Ausrichtung auf einen «virtuellen Diskussionsprozess» im Internet ein weiteres Charakteristikum. Die Dokumenttypen werden mehr und vielfältiger. Es bedarf der Berücksichtigung von bibliografischen Angaben, der Metadaten, der Autoritätsbewertung des Autors, des zeitlichen Kontexts und des Verweisungsnetzwerks, um die Relevanz der Treffer eines Rechtsretrieval-Systems für eine Rechtsfrage nutzerorientiert sortieren zu können. In diesem Beitrag wird ein theoretisches Modell entwickelt, welches in Zukunft unter Einbeziehung vorhandener Instrumente umgesetzt werden soll.

Inhaltsverzeichnis

  • 1. Einleitung
  • 2. Erweiterung des juristischen Wissenskorpus
  • 3. Metadaten
  • 4. Autorität des Autors
  • 5. Zeitlicher Kontext
  • 6. Vernetzungsstruktur
  • 7. Ranking
  • 8. Schlussfolgerungen

1.

Einleitung ^

[1]
Die juristische Veröffentlichung und Publikationskultur war immer vielfältig; ist aber derzeit in einem weiteren starken Wandel begriffen. Die Dokumente der Rechtsetzung und Rechtsprechung sollen in Echtzeit verfügbar sein. Dazu wird der Publikationsprozess der Lehre und Praxis schneller und vielschichtiger. Ein weiteres Merkmal ist die Ausrichtung auf einen «virtuellen Diskussionsprozess». Die zunehmende Digitalisierung unterstützt sowohl die Vielfalt als auch die Schnelligkeit. Homepages und Blogs werden zunehmend eine relevante Publikationsform. Die lange vorherrschende Dominanz von Verlagen bei der Publikation rechtswissenschaftlicher Texte schwächt sich ab. Soziale Medien sind zwar derzeit noch wenig bedeutsam, was sich aber noch ändern wird.
[2]
Diese an sich erfreulichen Änderungen bedingen aber, dass wesentlich mehr Sorgfalt bei der Bewertung der Autorität des Dokuments erforderlich ist. Hierzu stehen bibliografische Angaben (insbes. Autor) zeitlicher Kontext des Dokuments, Einordnung in die Vernetzungsstruktur sowie Ranking zur Verfügung. Das Endergebnis – eine hochwertige Sammlung relevanter Quellen zu einem Rechtsproblem – muss gleich wie bisher sein; aber der Weg wird durch die Berücksichtigung von mehr und unterschiedlichen Quellen schwieriger. Der wesentliche Vorteil besteht darin, dass mehr Materialien in kürzerer Zeit zur Verfügung stehen und rascher eine Stabilität in der Diskussion erreicht werden kann (z.B. herrschende Meinung in Rechtsprechung und Literatur).

2.

Erweiterung des juristischen Wissenskorpus ^

[3]

Das Grundelement des juristischen Wissenskorpus ist und bleibt das Dokument; wenn auch nicht mehr das reine Textdokument, sondern zunehmend auch Multimedia-Dokumente (Bilder, Videos etc.).1 Sehr häufig werden Dokumente in Dokumentklassen zusammengefasst; insbesondere nach Autoren, Zeiträumen, Veröffentlichungsformen bzw. Inhalten. Eine besondere Einheit bilden oft Autoren und deren Dokumente. Auch hier kommt es zu Differenzierung nach Zeiträumen bzw. Inhalten.

[4]
Der Kern des juristischen Wissenskorpus bleibt natürlich unverändert: Gesetzesblätter, Urteilssammlungen und wissenschaftliche Literatur, insbes. Zeitschriften und Kommentare. Die Veröffentlichungsform wechselt zunehmend von Papier auf Online; herausragende Beispiele sind das österreichische Bundesgesetzblatt (online authentisch seit 2004)2 als auch das EU-Amtsblatt3. Bei den Urteilssammlungen setzt sich zunehmend der Trend zur Veröffentlichung aller Urteile durch, was aus Kostengründen nur online machbar ist. Damit sind die gedruckten Urteilssammlungen schleichend überlagert worden und stellen nunmehr vornehmlich eine Auswahl «wichtigerer Urteile» dar. Die Bedeutung hat in der Praxis nicht wirklich abgenommen; ihre Rolle ähnelt zunehmend jener der Gesetzessammlungen (z.B. KODEX Reihe)4. Wissenschaftliche Zeitschriften sind schon seit langem (in Österreich seit 1986) auch online verfügbar; für Archivzwecke sind die Online-Versionen schon jetzt dominant. Schleichend verdrängt Online das Print-Produkt; inbes. weil für Lesezwecke jederzeit ein gut verwendbar Ausdruck möglich ist. Kluge Verlage nutzen diesen Trend und fokussieren das Printprodukt auf diesen Zweck.
[5]
Das Internet macht jeden zum potentiellen Autor und Selbstverleger. Es bedarf weiterer Kriterien, damit diese schriftlichen und multimedialen «Ergüsse» auch relevant für den juristischen Wissenskorpus sind, insbes. die Autorität des Autors und der Inhalt selbst. Folgende Formen können zur Erweiterung des juristischen Wissenskorpus genannt werden: Websites, Blogs und Soziale Medien.
[6]
Websites: Verwaltungen, Parlamente und Gerichtshöfe nutzen schon seit langem das Web, um ihre Inhalte bürgernah anzubieten. Herausragendes Beispiel ist die Website EUROPA, die größte juristische Website weltweit, mit den Subsites Amtsblatt der EU bzw. EuGH. Aber auch das österreichische Parlament, die österreichische Gerichtshöfe und die Verwaltung nutzen diese Möglichkeit; wenn auch unter einer Vielzahl von Homepages, aber mit der einheitlichen Subdomain gv.at. Am Beispiel des österreichischen Rechtsinformationssystems RIS sieht man, dass Websites als Rechtsportale zunehmend als Anlaufstelle fungieren. Wer eine österreichische Norm sucht, verwendet unbewusst selbstverständlich das Portal des RIS. Die zusätzliche Indexierung des RIS in der wichtigsten Suchmaschine Google unterstützt diesen Prozess.
[7]

Blogs:5 Als neue Publikationsform ist insbesondere der Blog anzuführen. Er zeichnet sich durch Schnelligkeit mit Verzicht auf einen umfassenden Fußnotenapparat aus. Er entspricht damit am ehesten der Glosse. Weiters können sich auch Dritte sich zu diesem Thema äußern und Kommentare abgeben. Blogs zielen auf den Einstieg in die Diskussion, also wenn noch keinerlei juristische Bewertung zu einem Thema vorhanden ist. Merkmale sind Schnelligkeit, Stellungnahme und Dialog statt umfassender Themenbehandlung. Sowohl die Qualität des Autors als auch das Diskussionsform müssen den Anforderungen entsprechen. Als gutes Beispiel sei auf den Blog des Richters am österreichischen Verwaltungsgerichtshof Peter Lehofer verwiesen.6 Verlage beginnen nunmehr, diese sehr rasche Kommunikationsform, insbes. für neuere Judikatur, zu nutzen.7

[8]
Soziale Medien: Zunehmend werden auch wichtigere Dialoge über «Facebook & Co.» geführt; soziale Medien sind zur gesellschaftlichen Agora geworden. Regierungen, Gerichtshöfe wie Unternehmen verbessern ihre Präsenz im sozialen Netzwerk, um näher beim Bürger zu sein und ihm eine einfache Möglichkeit zum Dialog zu bilden. Abgesehen vom Aspekt der Privatsphäre muss auch dafür gesorgt werden, dass ausreichende Qualitätskriterien für den Content als auch für den Dialog gegeben sind.8 Eine neue, noch seltene Form der Publikation, aber auch Kommunikation, ist die Information über Urteile durch Gerichte über Facebook-Seiten.9
[9]
Entscheidend für die Aufnahme in den juristischen Wissenskorpus ist vornehmlich der Inhalt. Die Präsentation mag sich ändern, aber der Inhalt muss den Qualitätskriterien rechtswissenschaftlicher Methodik entsprechen. Zusammenfassungen oder Wegweiser der Rechtsnormen10 oder der Urteile mit rechtsdokumentarischer Qualität ergänzen schon seit längerem den Wissenskorpus. Die Rechtsdokumentation wird nicht nur intensiver betrieben, sie ist auch ein wichtiges Produkt zur Dissemination der jeweiligen Inhalte, insbes. über die Medien. Durch das Internet kommt die Argumentationskomponente dazu. Websites, Blogs und Soziale Medien sind auch Ebenen des juristischen Diskurses; auch «best practice» bildet sich langsam heraus. Es bedarf klarer Spielregeln, damit auch die Qualität des Austausches juristischer Argumente wie in Zeitschriften erreicht wird. An sich ist diese Entwicklung sehr begrüßenswert; es dürfen aber niemals die Kriterien eines rationalen Dialogs11 verletzt werden.

3.

Metadaten ^

[10]
Es ist unstrittig, dass es ohne Metadaten nicht geht. Hier stehen am Beginn die klassischen Kriterien der Informationswissenschaft zur Beschreibung von Dokumenten: Autor, Titel, Zeit, Veröffentlichungsinstrument. Diese Metadaten umrahmen und ergänzen den eigentlichen Content. An sich ist eine korrekte Autorenbezeichnung unumgänglich. Aber bei der Einbeziehung von Bürgern muss auch darauf geachtet werden, dass typisierte Identitäten bereitgestellt werden, die, falls notwendig, eine ausreichende Anonymität bei Publikation gewährleisten (z.B. Niederösterreicher, 50 Jahre). Bei rechtlichem Bedarf muss aber eine gerichtliche Klärung der Identität möglich sein. Desgleichen muss es akkreditierte Identitäten geben, um an sich personenbezogene Daten in anonymisierter Form verwenden zu können (z.B. 100 RDB-Nutzer haben sich dieses Dokument ausgedruckt).

4.

Autorität des Autors ^

[11]

Wie Fritjof Haft richtig bemerkt hat, hängt jede juristische Aussage davon ab, wer diese gemacht hat.12 Die Autorität des Autors sowie der Kontext sind entscheidend für die Glaubwürdigkeit der Quelle. Bei Parlamenten, Regierungen und Gerichtshöfen und ihren hochentwickelten Publikationsschienen ist dies offensichtlich und relativ einfach festzustellen. Bei Rechtsgelehrten und Praktikern ist dies eine schwierige Bewertungsfrage. Der Ruf des Autors unterliegt dem Wandel der Zeit; er muss aufgebaut werden und geht durch wenige oder keine Publikationen verloren. Nur wenige ausgewählte Autoren werden historisch und bleiben auch über ihren Tod hinaus relevant.

[12]
Grundvoraussetzung ist daher jeweils die korrekte Angabe des Autors oder des Autortyps (siehe oben) im zeitlichen Kontext. In vielen Fällen wird die Rechtswissenschaft die evidente Relevanz des Autors problemlos bestimmen können. Hier wird es in erster Linie darum gehen, die jeweils «wichtigeren» Dokumente von den «unwichtigeren Dokumenten», bestimmt für einen beliebigen Zeitpunkt, festzulegen.
[13]

Die neuen Medien ermöglichen einen intensiven Nutzerfeedback. Unter Beachtung des Datenschutzes können diese Daten für eine semi-automatische Bewertung der Relevanz des Autors bzw. dessen Dokumente verwendet werden. Die Kriterien hierfür sind: Anzahl der Aufrufe, Downloads, Ausdrucke, Verweildauer auf der Website, Lesedauer des jeweiligen Dokuments etc. Diese Daten können in einen Feedback-Faktor akkumuliert und sodann durch einen Experten bewertet werden.

5.

Zeitlicher Kontext ^

[14]
Die Kriterien des zeitlichen Kontextes wurden von der Informationswissenschaft bzw. der Rechtsdokumentation bereits ausreichend aufgearbeitet: Datum der Erstellung, Datum der Publikation, Geltungsdauer, Anwendungsdauer, Zeitpunkt des Ereignisses, Daten anderer relevanter Dokumente etc.13
[15]
Bei den neuen Medien muss der zeitliche Kontext des Dokuments weniger umfangreich sein; aber das Datum der Erstellung der Erstfassung, allfälliger Ergänzungen bzw. auch der Diskussionsbeiträge werden auch hier zu dokumentieren sein.

6.

Vernetzungsstruktur ^

[16]
Trotz der Unmenge von Dokumenten bemüht sich die Rechtswissenschaft um Konsistenz der jeweiligen Rechtsordnung. Das wesentlichste Element zur Unterstützung dieses Bemühens liegt in der Einordnung des Dokuments in die Vernetzungsstruktur der Rechtsordnung. Es werden explizit die Verweise des Dokuments auf andere Dokumente dokumentiert (Aktivverweise). Gesetze, Judikatur, juristische Fachliteratur etc. greifen auf ein Netzwerk bestehender Dokumente zurück.14 Sehr wichtig ist Berücksichtigung der Verweise in anderen Dokumenten geworden (Passivverweise); in erster Linie spätere Literatur und Judikatur zu diesem Dokument.
[17]
Der juristische Textkorpus ist in seiner Gesamtheit selbst das Recht; zur Autorität benötigt er aber eine weitgehend konsistente Struktur. «Part of the reason for the great importance of citations in legal texts lies in the nature of legal texts themselves. There is no physical ‹legal object› that is described in texts, the texts themselves constitute the law.»15
[18]

Die Erfassung dieser Verweise kann weitgehend mit Listen bzw. sprachlinguistischen Methoden (semi)-automatisiert erfolgen;16 offen bleibt dabei sowohl die Typisierung der Verweise als auch das Ranking. Es gibt eine sehr vielschichtige Praxis der Zitierformate; neuerdings gewinnt die standardisierte Form des ECLI Bedeutung.17

[19]

Die derzeit häufigste Typisierung der Verweise sind Aktiv- und Passivzitate. Eine genauere Klassierung ergibt folgende Typen: Vorarbeiten, Änderung/Aufhebung (aktiv oder passiv), Nacharbeiten, zitierende Judikatur bzw. Literatur; Verweise je nach Teil des Dokuments (Rechtsgrundlage, operativer Teil des Urteils, Begründung, etc.). Eine Besonderheit sind Begriffsverweisungen, vor allem innerhalb eines Dokumentes (z.B. Sonderausgaben im Sinne des § 18 Einkommensteuergesetzes). Verweistechniken können aber auch ein Dokument nahezu unlesbar machen.

[20]
Beim citation vectors-Projekt von Colin Tapper18 wurden Zitierungen als Vektoren dargestellt, wobei diese nach ihrer Bedeutung gewichtet werden (Vektor-Retrieval-System VEXT). Mittels einer Clusteranalyse werden ähnliche Verweisungen festgestellt. Hauptproblem dieses Ansatzes blieb die Wissensakquisition für die Verweisungsvektoren.
[21]

Wichtig ist es sich vor Augen zu halten, dass Verweise nur ein Einstieg, eine Erleichterung der juristischen Analyse sein können. «Citation analysis is not a substitute or shortcut for critical thinking; it is, instead, a point of departure for those willing to explore the avenues to thorough evaluation.»19

[22]

Neben der Darstellung der Stellung des Dokuments im Dokumentennetzwerk der Rechtsordnung – ein wesentlicher Erkenntnisgewinn – sind Verweise ein wichtiges Instrument des Ranking.20 Ausgangspunkt des Rankings ist eine Formalisierung der Verweise, mit typisierten Dokumentbezeichnungen und, wenn möglich, Berücksichtigung der jeweiligen Dokumentelemente. Dieses Datenmaterial kann durch Nutzerfeedback noch ergänzt werden. Sodann ist vornehmlich eine statistische und analytische Auswertung angesagt: Anzahl der Verweise insgesamt, Anzahl der jeweiligen Typen der Verweise, Zeitschiene der Verweise etc. Die Rechtsinformatik ergänzt diese Analyse durch die Einbeziehung von rechtswissenschaftlichen Relevanzkriterien: Autorität des jeweiligen verweisenden Autors im zeitlichen Kontext, Wichtigkeit der Verweisung im Kontext des jeweiligen Dokuments etc.

[23]

Bei den neuen Medien ist die Stellung im Dokumentennetzwerk entscheidend. Ohne Passivzitate eines Blogs (sei es auch nur in der Form des «Like») oder Verweise auf die Homepage ist die Quelle – falls keine besondere Autorität hinzukommt – nahezu unsichtbar und wird kaum Relevanz entfalten können.

7.

Ranking ^

[24]

Bei Rankingverfahren werden die Suchergebnisse absteigend nach ihrer mutmaßlichen Relevanz ausgegeben.21 Ranking ist ein Kern des Information Retrieval22 und ist keine Spezialität der Suchmaschinen im Web. Aber erst mit der steigenden Bedeutung von Websuchmaschinen und der wachsenden Größe des Webs wurde ein Ranking der potenziell relevanten Treffer unverzichtbar.23 Den Durchbruch von textstatistischen Verfahren zum intelligentem Ranking stellt der Erfolg des PageRank-Algorithmus bei Google Ende der 1990er-Jahre dar.24 Damit konnte dem Wunsch der Nutzer nach einfachen, aber effizienten Suchwerkzeugen entsprochen werden, was ein wesentlicher Wettbewerbsvorteil war und ist.

[25]
Für juristische Textkorpora bedeutet dies, dass die Suchsysteme stärker auf die Rigidität der booleschen Logik verzichten und zu einer approximatischen Suche mit Fehlerkalkül wechseln.25 Die fehlende Qualität der Suchanfrage wird durch effizientes Ranking «überspielt». Dieses spielt somit für die Effizienz dieser Suche eine entscheidende Rolle. In der Praxis ist die «Konkurrenz» zwischen Websuchmaschinen und klassischen Fachinformationssystemen am stärksten bei Textkorpora zu beobachten, die sowohl vom der eigenen Suchmaschine als auch von Google indexiert werden (z.B. EUR-Lex oder RIS).26
[26]
Leider ist die Relevanz bei juristischen Textkorpora eine schwer fassbare Größe. Die objektive Relevanz – gemessen durch die Relevanzquote (Precision) und Vollständigkeitsquote (Recall) einer Suchanfrage – ist bestimmbar; wird aber praktisch durch die subjektive Relevanz überlagert. Das Ranking soll das Suchergebnis verbessern, weil der Nutzer sein Informationsproblem oft nur vage beschreiben kann, und nur bei entsprechender Geübtheit dies in die rigide boolesche Suchlogik mit Abstandsoperatoren27 umsetzen kann. Diese fast unlösbare Aufgabe wird dadurch noch erschwert, dass nicht nur eine objektive Relevanz nach Wichtigkeit gegeben werden soll (auch Kommentare sind nur oft nicht sehr klar zur Relevanz), sondern diese auch noch dem Informationsproblem des Nutzers angepasst werden. Dies bedeutet, dass der Fokus auch darauf gelegt werden muss, was der Nutzer noch nicht weiß, aber wissen sollte. Das Ranking wird damit ein wesentlicher Faktor für die Qualität des Rechtsinformationssystems.28 Das traditionelle inverse chronologische Ranking der Suchergebnisse ist eine gar nicht so schlechte Lösung für diesen Zielkonflikt: Neueste Entscheidungen zu einem Thema werden als erste angezeigt, weil sehr wahrscheinlich ist, dass der Nutzer diese noch nicht kennt.
[27]
Der wesentlichste Vorteil des Ranking liegt darin, dass man auch bei großen Treffermengen noch zu brauchbaren Ergebnissen kommt. Der Nutzer muss nur eine überschaubare Menge von Suchergebnissen durchsehen. Relevanz- und Vollständigkeitsquote sind voneinander abhängig; es müssen relevante Dokumente bestmöglichst sortiert werden.29
[28]
Bei der Bestimmung der Relevanz ist es bedeutsam zu wissen, wie viele Dokumente der Trefferliste der Nutzer intellektuell bewerten kann und will. Juristische Dokumente sind relativ lang und aus den bibliographischen Angaben kann oft nicht die Nicht-Relevanz erkannt werden; d.h. ohne Einlesen geht es oft nicht. Das Anzeigen des Kontexts der Suchwörter ist eine wesentliche Hilfe; bei einigen Suchmaschinen wird großer Wert auf diese Informationskomprimierung gelegt.30 Bei Praktikern ist es aus Zeitgründen nicht möglich, mehr als 20 Dokumente im Detail zu bewerten, und weniger ist mehr. Daher müssen die relevantesten Dokumente zuerst angeboten werden.
[29]
Qualitatives Ranking des Dokuments geht auf diese Ziele ein und entwickelt Verfahren, welche die gefundenen Dokumente absteigend nach ihrer mutmaßlichen Relevanz anzeigen. Damit wird der übliche Weg der chronologischen Trefferliste verlassen, bei welcher die Nutzer diese intellektuell sichten müssen. Die Treffer werden passend zur Relevanz sortiert.
[30]
Der Zielkonflikt bedingt, dass es keine alleinige richtige Lösung geben kann. Da die Relevanz selbst sehr unterschiedlich gesehen werden kann, soll eine Vielfalt von Optionen verfügbar sein, damit der Nutzer die passendste wählen kann. Hierbei ist zu beachten, dass der Nutzer selbst oft nicht in der Lage sein wird, explizit die jeweiligen Relevanzkriterien im Detail zu nennen. Aber es gilt wie beim Hypertext: wenn der Nutzer Freude am Arbeiten mit dem Dokumentkorpus hat, wird er die Varianten des Rankings ausprobieren und am Ende ein wesentlich besseres Suchergebnis bekommen. Die Grundfunktionalität der Sortierung nach Datum bzw. nach Relevanz ist der Einstieg.
[31]
Jedes Ranking setzt eine gute Kenntnis des juristischen Textkorpus, der Dokumenttypen, der Autoren, des zeitlichen Kontexts sowie der Verweisungsstruktur voraus. Weitere Möglichkeiten sind die datenschutzrechtlich schwierig zu lösende Berücksichtigung des Nutzerverhaltens sowie – insbesondere bei vielen Dokumenten – ein Ranking aufgrund von textstatistische Verfahren.
[32]
Ausgangspunkt der Textstatistik im Information Retrieval ist die evidente Tatsache, dass die Häufigkeiten der Wörter in Texten ungleich sind. Dadurch lassen sich Ähnlichkeiten berechnen als auch Clusterverfahren einsetzen. Die Schwierigkeit besteht darin, aus diesen Vektoren und Clustern auch inhaltliche Aussagen zu machen. Die deutsche Sprache mit vielen Regeln und Ausnahmen bedeutet eine Anzahl von grammatikalischen Versionen des gleichen Worts, aber auch durch Wortkomposita sehr unterschiedliche Begriffe mit gleicher Stammform. Bei einer Suche kann auf eine Auflösung dieser Komplexität – vor allem durch Grundformreduktion (Lemmatisierung)31 – durch den geschickten Einsatz von Trunkierung verzichtet werden; bei der Textstatistik bedarf es zumindest einer Mindestberücksichtigung; das Problem von Negation, Einsatz von Pronomen etc. bleibt dabei ungelöst. Auch im juristischen Bereich beginnt man mit dem Ansatz von Luhn, wonach ein bedeutungstragender Begriff (im Recht vor allem ein Rechts- oder Tatsachenbegriff) für ein Dokument umso signifikanter ist, je häufiger er im Dokument auftritt.32 Statistisch führt dies zur absoluten wie relativen Worthäufigkeit (term frequency, TF bzw. within-document-frequency, WDF) sowie zur inversen Dokumenthäufigkeit (inserve document frequency, IDF). TF spiegelt die Auftretenshäufigkeit eines Terms in einem einzelnen Dokument wieder; WDF relativiert diese zur Gesamtzahl aller Terme des Dokuments. IDF berücksichtigt zusätzlich zum Trefferwert eines Begriffs die Häufigkeit seines Auftretens in der Dokumentsammlung.33
[33]
Forschungen im Rahmen der KONTERM-Projekte haben gezeigt, dass letztlich Juristen – im Gegensatz zu Journalisten – die Bedeutung von Aussagen ungenügend textstatistisch abbilden. Gerichte wiederholen nicht ihre Urteilssprüche; der Gesetzgeber erlässt die Norm nur einmal. Damit können Standardverfahren wie inverse Dokumenthäufigkeit nicht so erfolgreich wie in anderen Bereichen eingesetzt werden.34 «Term frequencies do not help as much in law as in other domains. No redundancy exists in legal norms, but a lot of information is irrelevant in case law. Relevant texts parts may consist only of a short paragraph or even only of a single sentence in a very long legal document.»35

8.

Schlussfolgerungen ^

[34]
Ein starker Wandel kennzeichnet die juristische Veröffentlichung und Publikationskultur; neben sofortiger Verfügbarkeit ist die Ausrichtung auf einen «virtuellen Diskussionsprozess» im Internet ein weiteres Charakteristikum.
[35]
Eine Weiterentwicklung der Theorie zur Struktur von rechtswissenschaftlichen Wissenskorpora ist unumgänglich, um die neuen Formen relevanter juristischer Dokumente zu berücksichtigen, als auch um sich in der Unmenge diese Dokumente ausreichend zurechtzufinden. Es bedarf der Berücksichtigung von bibliografischen Angaben, der Metadaten, der Autoritätsbewertung des Autors, des zeitlichen Kontexts und des Verweisungsnetzwerks, um die Relevanz der Treffer eines Rechtsretrieval-Systems für eine Rechtsfrage nutzerorientiert sortieren zu können. Erst wenn diesen Formationen vorliegen, kann die inhaltliche Analyse der Dokumente mit Methoden der Computerlinguistik intensiv angegangen werden.
[36]
In diesem Beitrag wird ein theoretisches Modell entwickelt, welches in Zukunft unter Einbeziehung vorhandener Instrumente umgesetzt werden soll. Sodann sollen computerlinguistische Methoden zur weiteren Analyse der Dokumente eingesetzt werden.
  1. 1 Vgl. Schweighofer, Erich, Rechtsinformatik und Wissensrepräsentation. Springer, Wien (1999); Schweighofer, Erich, Rechtsdatalystik – Versuch einer Teiltheorie der Rechtsinformatik. In: Erich Schweighofer, Franz Kummer, Walter Hötzendorfer (Hrsg.), Kooperation: Tagungsband des 18. Internationalen Rechtsinformatik Symposions IRIS 2015. books@ocg.at, Wien 2015, 61–72 (2015).
  2. 2 Website RIS Rechtsinformationssystem des Bundes, https://www.ris.bka.gv.at.
  3. 3 Website EUR-Lex, http://eur-lex.europa.eu/oj/direct-access.html.
  4. 4 Der KODEX des österreichischen Rechts wird von Werner Doralt herausgegeben und von den Verlagen LexisNexis und Linde publiziert. Infos: http://www.lexisnexis.at/unsere-loesungen/rechtsanwaelte-und-notare/rechercheloesungen/nach-buechern-zeitschriften-und-online-medien-suchen/kodex.aspx (zuletzt abgerufen: 3. Februar 2016).
  5. 5 Wikipedia DE, Blog https://de.wikipedia.org/wiki/Blog. Für juristische Blogs hat sich die Bezeichnung «Blawg» etabliert: http://www.jurawiki.de/Blawg (zuletzt abgefragt 3. Februar 2015).
  6. 6 e-comm, Blog zum österreichischen und europäischen Recht der elektronischen Kommunikationsnetze und -dienste: http://blog.lehofer.at/ (zuletzt aufgerufen: 24. Januar 2016).
  7. 7 Ein gutes Beispiel ist der Verlag Editions Weblaw in Bern (http://www.weblaw.ch/competence/editions_weblaw.html). Blogs werden in das Autorennetzwerk integriert und liefern Content, Weblaw überprüft Quelle und Qualität und nimmt diese dann in den dRSK – Der digitale Rechtsprechungs-Kommentar – auf. Auf Wunsch gibt es einen Push-Service zu neuesten Entscheidungen. Als multimediale Ergänzung sind Videos und Audios (Podcasts) zu Bundesgerichtsurteilen aus dem Haftpflicht-, Sozialversicherungs- und Zivilprozessrecht verfügbar. Das Wissensnetzwerk von WoltersKluwer JURION geht in eine ähnliche Richtung (https://www.jurion.de/).
  8. 8 Vgl. dazu Schilling, Peter, Nutzen und Zulässigkeit kommerzieller und eigener Social Media durch öffentliche Einrichtungen. In diesem IRIS-Tagungsband (2016).
  9. 9 Als Beispiel sei das Oberste Gericht in Brasilien (Supremo Tribunal Federal) angeführt: https://www.facebook.com/SupremoTribunalFederal.STF/ (zuletzt abgefragt: 3. Februar 2016). Dieses hat aber auch schon entsprechende Leitlinien ausgearbeitet.
  10. 10 Im Europarecht gibt es Zusammenfassungen der EU-Gesetzgebung seit der Binnemarktinitiative in den 1980er Jahren; ansonsten sind dies eher Erläuterungen oder Wegweiser. Nunmehr sind die Zusammenfassungen der EU-Gesetzgebung in EUR-Lex integriert: http://eur-lex.europa.eu/browse/summaries.html (zuletzt abgefragt: 3. Februar 2016).
  11. 11 Alexy, Robert, Rights, Legal Reasoning and Rational Discourse. In: Ratio Juris 5, S. 143–152 (1992).
  12. 12 Haft, Fritjof, Juristische Schreibschule, Anleitung zum strukturierten Schreiben. Edition Normfall, Frankfurt, S. 225 ff. (2009). Der Text «Das Zitieren von Autoritäten» erschien erstmal 1994.
  13. 13 Vgl. Schweighofer (1999), FN 1; Scharf, Johannes, Künstliche Intelligenz und Recht, Von der Wissensrepräsentation zur automatisierten Entscheidungsfindung. OCG Verlag, Wien (2015).
  14. 14 Berger, Albrecht, Die Erschließung von Verweisungen bei der Gesetzesdokumentation. Verlag Dokumentation, München-Pullach (1971); Jahnel, Dietmar, Rechtsdatenbanken. In: Dietmar Jahnel, Peter Mader (Hrsg.), Rechtsdatenbanken – Internet. 2. Auflage. Österreichische Verlagsgesellschaft, Wien, S. 7–74 (2000).
  15. 15 Geist, Anton, The Open Revolution: Using Citation Analysis to Improve Legal Text Retrieval. In: Meritxell Fernandez-Barrera, Norberto Nuno Gomes de Andrade, Primavera de Filippi, Mario Viola de Azevedo Cunha, Giovanni Sartor, Pompeu Casanovas (Hrsg.), Law and technology: Looking into the future: selected essays. Florence, Italy: European Press Academic Publishing, S. 157–165 (2009). Vgl. auch Schweighofer (1999), FN 1.
  16. 16 Vgl. Schweighofer (1999), FN 1.
  17. 17 van Opijnen, Marc, European Case Law Identifier: Indispensable Asset for Legal Information Retrieval. In: Maria Angela Biasiotti and Sebastiano Faro (eds.), From Information to Knowledge – Online access to legal information: methodologies, trends and perspectives IOS Press, December (2011); Wikipedia DE, European Case Law Identifier, https://de.wikipedia.org/wiki/European_Case_Law_Identifier (zuletzt abgefragt 3. Februar 2016).
  18. 18 Tapper, Colin, An Experiment in Use of Citation Vectors in the Area of Legal Data, Complex 9, Universitetsforlaget (1982).
  19. 19 Garfield, Eugene, Uses and Misuses of Citation Frequency. In: Eugene Garfield (Hrsg.), Ghostwriting and other essays. Philadelphia: ISI-Press, S. 403–409 (408) (1986).
  20. 20 Geist (2009), FN 15.
  21. 21 Vgl. dazu die mit sehr umfassenden Verweisen versehene Arbeit von Geist, Anton, Rechtsdatenbanken und Relevanzsortierung, Dissertation, Universität Wien, in Fertigstellung (2016). Diese war für die Erstellung dieses Kapitels sehr wertvoll. Geist gilt auch der Dank, für die Zusammenstellung der vielen Zitate, die diese Fragestellung so treffend zusammenfassen. Vgl. auch Schweighofer (1999), FN 1, S. 66; Lewandowski, Dirk, Web Information Retrieval: Technologien zur Informationssuche im Internet. Frankfurt am Main, DGI (2005).
  22. 22 Salton, Gerard, McGill, Michael J., Information Retrieval – Grundlegendes für Informationswissenschaftler. McGraw-Hill, Hamburg (1987).
  23. 23 Lewandowski (2006), FN 21, S. 73.
  24. 24 Lewandowski, Dirk, Suchmaschinen verstehen. Berlin, Heidelberg: Springer Berlin Heidelberg, S. 104 (2015).
  25. 25 Dieser Trend wurde von Lossau bereits 2004 festgestellt. Lossau, Norbert, Suchmaschinentechnologie und Digitale Bibliotheken – Bibliotheken müssen das wissenschaftliche Internet erschließen. In: ZfBB – Zeitschrift für Bibliothekswesen und Bibliographie 51, Nr. 5–6, S. 284–295 (288) (2004).
  26. 26 Vgl. zum Wettbewerb zwischen Fachinformation und Web Kraft, Matthias: Metasuche. In: Erich Schweighofer, Franz Kummer (Hrsg.), Europäische Projektkultur als Beitrag zur Rationalisierung des Rechts: Tagungsband des 14. Internationalen Rechtsinformatik-Symposions IRIS 2011. books@ocg, Wien 2011, 503–508 (505) (2011).
  27. 27 Vgl. Schweighofer (1999), FN 1.
  28. 28 Bauer, Ingmar, Moderne Ranking-Verfahren im WWW: Grundlagen, Konzepte und Algorithmen. Saarbrücken, VDM Verlag Dr. Müller (2007).
  29. 29 Gaus, Wilhelm, Dokumentations- und Ordnungslehre: Theorie und Praxis des Information Retrieval. 5. Auflage, Berlin, Springer, S. 218 (2005).
  30. 30 Z.B. bei der Lawsearch Enterprise der Weblaw AG: Stichworte, relevante juristische Verweise aus Gesetzgebung, Literatur und Rechtsprechung.
  31. 31 Dies war in einer älteren Version von juris der Fall.
  32. 32 Luhn, Hans Peter, The Automatic Creation of Literature Abstracts. In: IBM Journal of Research and Development 2, Nr. 2, S. 159–165 (1958).
  33. 33 Spark Jones, Karen, Albers, Christoph, Eine statistische Interpretation von Begriffsspezifizität und ihre Anwendung für das Retrieval. Saarbrücken, Fachrichtung Informationswissenschaft, Universität des Saarlandes, S. 14 (1987).
  34. 34 Schweighofer, Erich, Hanneder, Gottfried, Rauber, Andreas, Dittenbach, Michael, Improvement of Vector Representations of Legal Documents with Legal Ontologies. In: 5th International Conference on Business Information Systems, Poznan, April 2002 (Proceedings on CD-ROM) (2002).
  35. 35 Schweighofer, Erich, Geist, Anton, Legal Query Expansion using Ontologies and Relevance Feedback. In: Casanovas, Pompeu; Biasiotti, Maria Angela; Francesconi, Enrico; Sagri, Maria-Teresa (Hrsg.), Proceedings of the 2nd Workshop on Legal Ontologies and Artificial Intelligence Techniques (LOAIT). CEUR-WS.org, S. 149–160 (2007).