Jusletter IT

Weitere Spaziergänge durch die Welt der Rechtsinformatik und Europa bei denen Erich Schweighofer alle Hände voll zu tun hatte

  • Author: Andreas Rauber
  • Region: Austria
  • Field of law: Zur Person Erich Schweighofer
  • Collection: Festschrift Erich Schweighofer
  • Citation: Andreas Rauber, Weitere Spaziergänge durch die Welt der Rechtsinformatik und Europa bei denen Erich Schweighofer alle Hände voll zu tun hatte, in: Jusletter IT 22 February 2011
Dieser Abschnitt erzählt von einigen weiteren Ausflügen, sowohl inhaltlicher Natur als auch tatsächlichen Spaziergängen durch einmal mehr, einmal weniger verbaute Natur, und führt uns inhaltlich von der Beschriftung von auf Karten organisierten Rechtsdokumenten hin zu deren langfristigen Erhaltung – mit einer Abzweigung zu hierarchischen Strukturen.

Inhaltsverzeichnis

  • 1. Einleitung
  • 2. Über die Beschriftung von Karten
  • 3. Von Spaziergängen an verschiedenen Orten und hin zu neuen Themen
  • 4. Danksagung
  • 5. Literatur

1.

Einleitung ^

[1]

Gemeinsame Spaziergänge gab es viele – und sie waren sowohl inhaltlich als auch geographisch recht weitläufig und weit verteilt. Aber schön der Reihe nach:

[2]

Die gemeinsame Bekanntschaft begann eines späten Abends am Institut für Softwaretechnik in den Räumen der Resselgasse, als Dieter (Merkl) und Erich (Schweighofer) SOMs (Self-Organizing Maps) trainierten, und ich mit einigen Parametersettings und Codesegmenten aushelfen durfte. Wobei ich heilfroh war, mich zumindest mit diesen Aspekten des Abendprogrammes einigermaßen auszukennen, während der Rest der abendlichen Diskussionsmaterie – Zusammenhänge zwischen obskuren rechtlichen Dokumenten – mir mehr als suspekt erschien. Vermutlich war dies einer der entscheidenden Faktoren, der mich von der Leistungsfähigkeit des methodischen Ansatzes, Dokumente zu indizieren und zu clustern, überzeugt hat: Wenn das Verfahren in der Lage war, aus derartigen – einem Informatiker ausreichend unzugänglichen – Texten inhaltliche Zusammenhänge zu erkennen, dann musste es ich dabei schon um ein extrem intelligentes Verfahren mit unglaublichem Leistungspotential handeln. Zumindest schienen die Interpretationen in ihrer Breite und Tiefe, wenn auch nicht immer in ihrer Nachvollziehbarkeit, sehr beeindruckend. (Zum entgegengesetzten Problem der «inhaltlichen Leere» von Rechtsdokumenten aus Information-Retrieval Sicht später mehr.)

2.

Über die Beschriftung von Karten ^

[3]

Jedenfalls wurde rasch klar, dass die Interpretation der Karten doch ein nicht unerhebliches Problem darstellte – selbst für mit der Materie im Detail vertrauten Juristen. Dies umso mehr, als dank steigender Rechenleistung sowohl die verarbeiteten Textmengen, als auch die Karten zunehmend größer wurden. (Wir arbeiteten uns von weniger als hundert Dokumenten rasch in den Bereich von mehreren Tausend Texten vor.) So geschah es, dass rasch ein Verfahren notwendig wurde, welches den einzelnen Bereichen auf der SOM entsprechend aussagekräftige Schlagwörter zuwies. Diese wiesen damals zwar weder die sprachliche, noch die optische Schönheit der Tag Clouds, wie sie am Ende des vorigen Kapitels vorgestellt wurden, auf. Der Gewinn an Verständlichkeit wird jedoch rasch aus folgender Abbildung ersichtlich, bei der nur 43 Dokumente aus EUR-Lex und CELEX auf einer 5x5 Karte abgebildet wurden. Die Karte, in Abbildung 1 dargestellt, deckt Themen ab wie zum Beispiel transparency of financial relations of public enterprises and member states[1,1], energy single market (transit of electricity and gas through grids)[1,4], electricity single market[2,3]), satellites[2,5] , telecommunication liberalisation (units im unteren rechten Bereich der Karte, e.g. voice telephony[4,4]) . Dies wurde durch die automatisch extrahierten Schlagworte, wie sie in Abb. 2 aufgelistet sind, doch deutlich rascher ersichtlich – wenn auch die Interpretation der Terme dank vorhergegangenem Stemming doch etwas Fantasie erforderte [1].

Abbildung 1: Self-organising Map, 5x5 units

 

Turnover, financi, manufact, capit, consolid, loan, fund, enterpri, annu, credit, mail, complain, corbeau, offic, french, concess, post, contest, applican, rigi, lihg italian, submissi, industr, fami, reduct, becaus, devolv, upon, employer, parti, alter, applican, cannot, contest, aid, pertain, energ, transit, grid, list, entit, pressur, updat, electric, entit, prospect, ent, applicat, particip, procurem, energ, opt,
bureau, vehicl, accident, insu, handl, settleme, card, liabil, motor, damag, extern, concessi, concess, group, monopol, giniral, parent, bodson, cass, belong, french, pric, cour electric, producer, customer, generat, buyer, distribu, eligibl Flight, schedul, airlin, exempt, tariff, concert, regul, rout, void, bilater, tarif, multilat, terrestr, spac, station, mark, satellit, earth,
porto, port, genova, italian, genoa, corsica, ferr, fly, siderurg, worker, work, vessel, maritim navig, convent, collect, jurisdic, spac, rout, cass, aircraft, admissib, cour, ruling, greek, contract, republic, belgian, internat, kingdom, control, proceedi employme, agenc, procurem, consulta, german, macrotro, statutor Manufact, test, notifi, qual, mark, certific, inspect, typ, termin, standard, symbol, conform, laborato, affix, termin, organiza, acces, standard, regulato, lin, replac, leas,
port, luxembou, upon, tribun, apprais, privileg, conferr, divis, question, formulat, infer, waterwa, duch, crimin, cannot, particul, however, befor, car, health, profit, hom, runn, reimburs, peopl, particip, regional, region, contract, arrangem, tax, compensa, sect, elimin, aid, disadvan, liv, characte, promot, progress, approxim, quantita, distur, procur, good, time, monopol, qualifi, apply, unfair, organiza, intercon, voic, liberali, telephon, regulato, cable essenti, termin, telex, packet, acces, licens, telephon, data, resal, leas, organiza, messag, switch, interfac,
typ, approv, connect, belgian, radiocom, model, minister, hir, telephon, termin, centr, artifici, health, cass, french, intra, stock, import, approv, coopirat, agricol cable, satellit, retransm, televis, broadcas, advertis, mobil, communic, licenc, frequenc, intercon, infrastr, band, licens, committe, proporti, license, attach, stop, univers, regulato, organiza, shopp, licenc, intercon


Abbildung 2: Automatisch ermittelte Schlagworte zur Beschreibung der SOM

[4]

Viele Überlegungen flossen damals in die Analyse, wie wir die Qualität der inhaltlichen Darstellung verbessern konnten. Bei einer genaueren Analyse der Texte und Termfrequenzen wird dem Informatiker rasch klar, warum die inhaltliche Analyse von Rechtsdokumenten sich so schwierig gestaltet: sie sind – nach allen Regeln der Kunst des für „normale Texte“ optimierten Information Retrieval – beinahe inhaltsleer! Eine Grundannahme der natürlichen Sprache ist es, dass wichtige Begriffe und Konzepte in einem Text häufig wiederholt werden (hohe Termfrequenz), während unwichtige Begriffe entweder nur selten in einem Dokument vorkommen – oder aber in allen Dokumenten auftauchen (siehe die berüchtigten Stoppwörter im vorigen Kapitel). Nun stellt sich heraus, dass juristische Dokumente sich nur beschränkt an diese Regel halten: in dieser hochgradig kodifizierten Sprache wird der inhaltliche Kern einmal definiert – und in weiterer Folge relativ formal verklausuliert abgehalten – diese Tatsache treibt nicht nur den Laien, sondern auch den Computer relativ rasch zur Verzweiflung – oder aber in äußerst interessante Diskussionen über Semantik, Sprache, Verständnis und Missverständnis, die doch in Summe die Basis spannender Kommunikation sind. Schon allein aus diesem Grund lag in der Verbesserung der Qualität der Beschriftungen eine Aufgabe, die uns noch eine ganze Weile beschäftigte.

[5]

Dies war auch die Zeit, in der wir uns von den flachen Karten verabschiedeten, und uns intensiv der Analyse von Hierarchien in großen Textsammlungen zu widmen begannen [2]. Zu diesem äußerst erfolgreichen Teil der gemeinsamen Spaziergänge stieß mit Michael Dittenbach ein dritter Begleiter hinzu, dem ich an dieser Stelle auch die weitere Berichterstattung über den weiteren Verlauf dieser Wanderung überlassen möchte.

3.

Von Spaziergängen an verschiedenen Orten und hin zu neuen Themen ^

[6]

Zu diesem Zeitpunkt führten mich nämlich auch meine eigenen Wanderungen für eine Weile aus Österreich weg, zuerst ins schöne Italien, und dann weiter nach Paris. Hier folgten in der Tat gemeinsame Spaziergänge durch den Park – mit inhaltlichen Ausflügen von einigen wenigen Labels ausgehend bis hin in alle mehr oder weniger obskuren Bereiche der von Rechtsdokumenten erschlossenen Welt – in Begleitung meiner zur Freude von Erichs Schultern damals noch sehr leichten Tochter, welche von den Inhalten noch viel weniger verstand als ich, aber den Spaziergang nicht minder genoss.

[7]

Die Tradition der gemeinsamen Spaziergänge für mehr oder weniger fokussierte Diskussionen hat sich über die Zeit hinweg erhalten – viel zu selten zwar, um sich zu einer regelrechten Tradition zu entwickeln, aber häufig genug, um sich jedes mal fest vorzunehmen, sie in Zukunft doch öfter unternehmen zu müssen. Sie bieten Stoff für so manche Anekdote, von nächtlichen Eilfahrten durch die Niederlande (nach der beinahe missbräuchlichen Verwendung von Familienangehörigen zu spätnächtlicher Stunde im fernen Österreich als Bahnauskunftsbüro), bis hin zu Waldspaziergängen und Weinverkostungen in der Steiermark. Aber diese sollen ein andermal erzählt und nicht niedergeschrieben werden.

[8]

Während uns die SOM und die Analyse der Rechtsdokumente in all diesen Jahren als Thema treu begleitet hat, so ist in letzter Zeit eine weitere inhaltliche Facette hinzugekommen: so praktisch die elektronische Verfügbarkeit digitaler Dokumente für unser Analysen, verbesserte Suche und unmittelbaren Zugriff auch sein mag, so problematisch gestaltet sich deren längerfristige Bewahrung. Aus diesem Grund folgt die Notwendigkeit der Digitalen Langzeitarchivierung als beinahe logische Fortsetzung der gemeinsamen Aktivitäten – wenn auch auf den ersten Blick in einem inhaltlich gänzlich anderen Bereich [3,4] – ein Thema, das mit Sicherheit auf vielen weiteren Spaziergängen ein guter Begleiter sein wird.

4.

Danksagung ^

[9]

Vielen herzlichen Dank für die gemeinsamen Spaziergänge, für inhaltliche genauso wie für solche durch die verschiedenen Gegenden der Welt! Danke auch für all die Diskussionen und Ideen, manche davon wurden verwertet und niedergeschrieben, viele sind aber noch offen und bieten Raum für viele weitere Spaziergänge.

5.

Literatur ^

Andreas Rauber, Erich Schweighofer, Dieter Merkl. Text Classification and Labelling of Document Clusters with Self-Organising Maps. In: ÖGAI Journal 3: 17-23, 2000.
Erich Schweighofer, Gottfried Haneder, Andreas Rauber, Michael Dittenbach . Improvement of Vector Representations of Legal Documents with Legal Ontologies. In: 5th International Conference on Business Information Systems, Poznan, April 2002 
Erich Schweighofer, Andreas Rauber . Conservation of the Electronic National Heritage for the Future – Legal and Political Considerations. In: Peter Sint, Erich Schweighofer (Hrsg.), Proceedings of Knowledge Rights – Legal, Societal and Related Technological Aspects (KnowRight 2006), February 16-17 2006, Vienna, Austria. pp. 145-156, OCG.
Erich Schweighofer, Andreas Rauber . Digital Heritage & Copyright. In: Jens Gaster, Erich Schweighofer und Peter Sint (Hrsg.), KnowRight 2008 – Knowledge Rights – Legal, Societal and Related Technological Aspects, Wien 2008, pp. 171-180, OCG.



Andreas Rauber, ao.Univ.Prof. Dr., Technische Universität Wien, Institut für Softwaretechnik und Interaktive Systeme, Favoritenstraße 9-11/188, 1040 Wien,rauber@ifs.tuwien.ac.at ;www.ifs.tuwien.ac.at/~andi/