Jusletter IT

Zusammenführen und Harmonisieren von rechtsterminologischen Datenbeständen: das LISE (Legal Language Interoperability Services) Projekt stellt sich den Herausforderungen kollaborativer interinstitutioneller Terminologiearbeit

  • Authors: Elena Chiocchetti / Tanja Wissik
  • Category: Short Articles
  • Region: Italy
  • Field of law: Elektronische Rechtsetzung
  • Collection: Conference proceedings IRIS 2012
  • Citation: Elena Chiocchetti / Tanja Wissik, Zusammenführen und Harmonisieren von rechtsterminologischen Datenbeständen: das LISE (Legal Language Interoperability Services) Projekt stellt sich den Herausforderungen kollaborativer interinstitutioneller Terminologiearbeit, in: Jusletter IT 29 February 2012
Jede Terminologiedatenbank ist unterschiedlich aufgebaut, da die Auswahl und Darstellung der Informationen von den Zielen der Sammlung und den Bedürfnissen der Benutzer abhängen. Das gilt natürlich ebenso für mehrsprachige Datenbanken, die Rechtsterminologie aus einem oder mehreren Rechtssystemen behandeln. Was geschieht aber, wenn unterschiedliche Terminologiebestände zusammengeführt werden? Wie kann man, trotz unterschiedlichen Aufbaus und Inhalts der Einträge, sicherstellen, dass keine wichtigen Informationen verloren gehen, keine unnötigen Dubletten entstehen, bzw. dass nur jene Einträge zusammengeführt werden, die auch zusammen gehören? Man kann zwar manuell vorgehen, aber der Aufwand hinsichtlich der Zeit und der Kosten, die es zu investieren gilt, sind groß. Im Rahmen des EU-Projekts LISE – Legal Language Interoperability Services (http://www.lise-termservices.eu) werden Tools entwickelt, die das Zusammenführen, Erweitern und Harmonisieren von Terminologiebeständen teilweise automatisieren und beschleunigen sollen. Im Beitrag stellen wir kurz verschiedene existierende mehrsprachige rechtsterminologische Datenbanken mit dem Sprachenpaar Deutsch-Italienisch (TERMDAT, Bistro, IATE) vor und zeigen anhand eines Terminus exemplarisch, welche Unterschiede bestehen und welche Folgen dies bei einer möglichen Zusammenführung bzw. einem Austausch von Daten haben könnte. Der Einsatz von Tools, die LISE über eine online Serviceplattform zur Verfügung stellt, automatisiert und erleichtert diese Vorgänge, sodass die Daten schneller einer größeren Benutzergruppe zugänglich gemacht werden können. Besonders im Bereich des Rechts scheint dies im Zuge einer engeren Zusammenarbeit auf zwischenstaatlicher und internationaler Ebene sehr sinnvoll und wünschenswert.

Inhaltsverzeichnis

  • 1. Einleitung
  • 2. Rechtsterminologische Datenbanken
  • 2.1. TERMDAT
  • 2.2. Bistro
  • 2.3. IATE
  • 2.4. Unterschiede und Konsequenzen
  • 3. Das Projekt LISE
  • 3.1. Tool für die Harmonisierung von Terminologiebeständen
  • 4. Zusammenfassung und Ausblick
  • 5. Literatur

1.

Einleitung ^

[1]
Europa wächst immer weiter zusammen, trotz der vielen sprachlichen und rechtlichen Hürden. Im Zeitalter der Globalisierung ist sogar die ganze Welt von dichten politischen, wirtschaftlichen, institutionellen, sozialen und kulturellen Vernetzungen durchzogen. In einem solchen dichten Netz an Waren- und Informationsaustausch ist die gegenseitige Verständigung unverzichtbar. Ein für den Bürger und die Wirtschaft besonders wichtiger Bereich ist der des Arbeits- und Sozialrechts. Hier gilt es, viele normative und sprachliche Hindernisse zu beseitigen, um die Freizügigkeit der Arbeitnehmer zu gewährleisten, einen globalen Arbeitsmarkt zu schaffen, die wirtschaftliche Konkurrenzfähigkeit zu verbessern und eine rechtliche Harmonisierung anzustreben. In diesem Beitrag behandeln wir also exemplarisch einen Begriff aus dem Arbeitsrecht.
[2]
Viele rechtsterminologische Datenbanken wurden genau aus dem Grund angelegt, die Kommunikation innerhalb mehrsprachiger Staaten zu unterstützen und zu vereinheitlichen bzw. international (mehrsprachig und evtl. rechtsvergleichend) einen Beitrag zum Verständnis der gegenseitigen Rechtsordnungen zu leisten (vgl. z.B. TERMDAT Leitfaden 2009:iii; http://www.eurac.edu/bistro, Kapitel „TerKom“: 03.01.2012). Heute gibt es an zahlreichen Institutionen multilinguale Terminologiedatenbanken zu diversen Bereichen des Rechts, die mit verschiedenen Zielsetzungen und für andere Zielgruppen aufgebaut und gespeist wurden (siehe Beispiele unter 2.). Diese präsentieren in vielfältiger Form und mit unterschiedlicher terminologischer Granularität teilweise ähnliche Bestände. Eine Integration bzw. Zusammenführung solcher Terminologiesammlungen stellt eine heikle und komplexe Aufgabe dar, die unweigerlich zum Verlust von Informationen bzw. zum Schaffen vieler unübersichtlicher und absolut nicht benutzerfreundlichen Dubletten1 führen kann. Dennoch scheint es in manchen Situationen sinnvoll, bestimmte Bestände in einer einzigen Ressource zu vereinigen oder Teilbestände auszutauschen. Das in Teil 3. vorgestellte EU-Projekt LISE zielt darauf ab, Tools zur Zusammenführung von Ressourcen, zur semi-automatischen Erweiterung von Beständen sowie zum semi-automatischen Beseitigen von Dubletten zur Verfügung zu stellen und somit zur Vereinfachung von sonst besonders zeitaufwändigen und personalintensiven Arbeitsschritten beizutragen.

2.

Rechtsterminologische Datenbanken ^

[3]
In diesem Teil werden wir anhand eines Beispiels die unterschiedlichen Eintragsstrukturen und Inhalte von drei rechtsterminologischen Datenbanken zeigen, die die Sprachen Deutsch und Italienisch behandeln und sich auf ein oder mehrere Rechtssysteme beziehen: TERMDAT, Bistro und IATE2 (siehe jeweils 2.1., 2.2. und 2.3.). Für unsere Zwecke soll nur daran erinnert werden, dass TERMDAT Termini des Schweizer Rechtssystems in drei bis fünf Sprachen enthält, dass Bistro ausgehend vom italienischen Recht eine deutsche Übersetzung für die zweisprachige Provinz Bozen/Südtirol vorschlägt sowie i.d.R. auch rechtsvergleichend Äquivalente aus den anderen deutschsprachigen Rechtssystemen aufnimmt und, schließlich, dass IATE das Produkt der Zusammenführung bereits existierender Termbanken ist und sich prinzipiell auf das EU-Recht bezieht3 . Der Beispielbegriff „Arbeitnehmer“, seine terminologische Beschreibung und die möglichen Übersetzungen ins Italienische unterscheiden sich in allen drei Ressourcen. Diese Unterschiede können bei einem Datenaustausch zum Informationsverlust führen bzw. fordern eine zeitaufwändige manuelle Kontrolle der importierten Daten (vgl. Necsulescu et al. 2011).

2.1.

TERMDAT ^

[4]
Für „Arbeitnehmer“ gibt es in TERMDAT einen genauen Treffer (Abb. 1). Neben den Verwaltungsdaten zu Eintragsnummer, Terminologiebüro (BE), Terminologiesammlung (TY), Identifikationsnummer (NI), Sachgebietscode (CM) und Zuverlässigkeitsgrad (3), findet man im Eintrag die weibliche Form der Benennung, eine Definition (DF) nach dem Schweizer Recht (CH) und die dazu gehörende Quellenangabe (RF).
[5]
Die entsprechende schweizeritalienische Benennung ist mit exakt gleich vielen Informationen beschrieben und lautet „lavoratore“ bzw. „lavoratrice“ in der weiblichen Form.

2.2.

Bistro ^

[6]
Die Suche nach „Arbeitnehmer“ in Bistro führt zu einem genauen Treffer. Das einzige sichtbare Verwaltungselement im Eintrag ist das Fachgebiet (diritto del lavoro/Arbeitsrecht). Im deutschsprachigen Teil (Abb. 2) wird der Begriff mit einer grammatikalischen Angabe, einem Sprachgebrauch und Termstatus beschrieben. Im Sprachgebrauch findet man die Rechtssysteme (Ländercodes), in denen die Benennung gebräuchlich ist. Der Termstatus signalisiert welche Übersetzungsäquivalente der italienischen Rechtsbegriffe für die Provinz Bozen/Südtirol offiziell von einer Terminologiekommission validiert wurden. Weiters stehen im Eintrag Definitionen und/oder Kontexte zum Terminus in den unterschiedlichen Rechtssystemen, mit den entsprechenden Quellen. Für Österreich gibt es außerdem ein Synonym, das wiederum mit Grammatik, Sprachgebrauchsangabe, Kontext und Quelle versehen ist.
[7]
Im Teil des Eintrags, das den italienischen Benennungen gewidmet ist (Abb. 3), befindet sich eine Liste von äquivalenten Lang- und Kurzformen: prestatore di lavoro subordinato, prestatore di lavoro, lavoratore dipendente, dipendente. Auch in dieser Sprache (in Bistro die Ausgangssprache) findet der Benutzer grammatikalische Angaben, Informationen zum Termstatus (der hier behandelte wurde offiziell genormt) und eine Definition mit Quellenangabe sowie Kontexte mit Quellenangaben. Außerdem gibt es Querverweise zu anderen Termini in der Sammlung, in diesem Fall zu den untergeordneten Begriffen. Schließlich rundet ein Metatext, eine Anmerkung zum Begriff oder zu den Äquivalenzen, den Eintrag ab (Abb. 2).

2.3.

IATE ^

[8]
IATE präsentiert dem Benutzer fünf genaue Treffer für die Suche nach der Benennung „Arbeitnehmer“, die mit verschiedenen Fachgebieten gekennzeichnet sind und unterschiedliche Übersetzungen vorschlagen. In der ersten kompakten Anzeige der Ergebnisse findet man also einen Eintrag in den Fachbereichen „Beschäftigung und Arbeit, Statistik“, wo „Arbeitnehmer“ als Synonym für „Arbeitnehmerschaft“ gilt und mit „salariato“ übersetzt wird. Es folgt ein durch Datenaustausch mit TERMDAT gewonnener Eintrag in den Fachbereichen „Beschäftigung und Arbeit, Recht“, der auch die weibliche Form des Terminus und als italienische Übersetzungen „lavoratore“ bzw. „lavoratrice“ anführt. Im dritten Eintrag in den Bereichen „Beschäftigung und Arbeit“, lautet die italienische Übersetzung nur „lavoratore“. Der vorletzte Eintrag bezieht sich auf die Fachbereiche „Unternehmensorganisation, Beschäftigung, Buchführung“. Der Terminus gilt hier als Synonym von „Beschäftigter“ und wird mit „lavoratore“ und „lavoratore dipendente“ wiedergegeben. Schließlich gibt es einen letzten Eintrag zu den Fachgebieten „Beschäftigung und Arbeit, soziale Fragen“, wo die Übersetzung „classe operaia“ und verschiedene Synonyme zum deutschen Begriff aufgelistet werden: „Lohnempfänger“, „Arbeiterklasse“, „Arbeiterstand“, „Arbeiterschaft“.
[9]
Exemplarisch begutachten wir nur den dritten Eintrag in seiner vollständigen Form. Die sichtbaren Verwaltungsdaten enthalten eine Angabe zu den Fachgebieten, die Eintragsnummer und den Ursprungsbestand4 . Der Eintrag selbst enthält eine Definition mit entsprechender Quelle in beiden Sprachen, eine Termquelle, ein Datum und einen Zuverlässigkeitscode.

2.4.

Unterschiede und Konsequenzen ^

[10]
Wie wir gesehen haben, findet ein hypothetischer Übersetzer in den Datenbanken unterschiedliche bzw. mehr oder weniger Informationen. Das hängt natürlich auch davon ab, welchen spezifischen Zweck die Datenbank verfolgt und für welche(s) Rechtssystem(e) die Terminologiesammlung gedacht ist. In Bistro gibt es zum Beispiel Angaben zur Normungstätigkeit für Südtirol, die für ausländische Übersetzer kaum von Interesse sind. Andererseits gibt es z.B. eine Definition für das Schweizer Rechtsystem, die den TERMDAT-Eintrag ergänzen könnte. Umgekehrt fehlt in Bistro die Angabe zur weiblichen Form des Terminus bzw. eine Angabe zum Zuverlässigkeitsgrad des Eintrags. Es scheint also sinnvoll, Daten auszutauschen und so den Benutzern umfangreichere Informationen zur Verfügung zu stellen. Genau diese Absicht verfolgten die Betreiber der ehemaligen Datenbanken der europäischen Institutionen, als IATE ins Leben gerufen wurde. Wie wir gesehen haben (siehe 2.3.), wird am Inhalt IATEs, das auch Einträge von TERMDAT und z.T. von Bistro übernommen hat, sofort klar, welche Folgen eine Zusammenführung unterschiedlicher Bestände mit sich bringen kann. Welche Einträge sollen nebeneinander bestehen bleiben? Welche ergänzen sich gegenseitig, welche schließen sich aus? Wie einfach ist es für den Benutzer, sich bei mehreren ähnlichen Einträgen zu orientieren und die richtige Übersetzung zu finden? Welche Informationen gehen verloren? Man müsste viel Arbeit investieren, um zu kontrollieren, welche Inhalte gelöscht, geändert oder übernommen werden sollten. Eine manuelle Kontrolle brächte zwar ein sehr hohes Qualitätsniveau mit sich, wäre aber zeitaufreibend und personalintensiv. Die im Rahmen des EU-Projekts LISE auf einer Online-Service-Plattform bereitgestellten Tools sollen u.a. bei solchen Datenbankmergern Hilfe leisten und bei der Zusammenführung von terminologischen Beständen bzw. bei der Dublettenbeseitigung die Arbeit erleichtern und weitgehend automatisieren.

3.

Das Projekt LISE ^

[11]
Das Projekt Legal Language Interoperability Services (LISE) wird im Rahmen des ICT PSP Programms finanziert5 und beabsichtigt, dem Bedürfnis nach konsolidierter Rechts- und Verwaltungsterminologie entgegenzukommen. Es wird von einem Konsortium von akademischen Institutionen und privaten Unternehmen6 unter der Leitung des Zentrums für Translationswissenschaft der Universität Wien durchgeführt (siehe http://www.lise-termservices.eu). Kern des Projekts ist eine online Plattform, über die Terminologiemanagern im öffentlichen und privaten Bereich eine internetbasierte Schnittstelle für die kollaborative Terminologiearbeit und Tools zur Verfügung gestellt werden, um die Qualität ihrer Terminologiesammlungen zu verbessen. Best Practices im Bereich der Rechts- und Verwaltungsterminologie stehen im Hintergrund der Toolentwicklung. Konkret sollen die Tools Terminologiemanagern bei drei wichtigen Arbeitsschritten durch eine weitgehende Automatisierung der Vorgänge Hilfeleistung bieten: Erweitern von Datenbeständen auf der Basis von bestehenden Translation Memories, Harmonisierung von zusammengeführten Beständen und Dublettenbeseitigung bzw. Cleanup von Terminologiesammlungen. Das workflowbasierte und –orientierte Service ist plattformunabhängig und besteht aus drei verschiedenen Tools: Cleanup, Fillup, OMEO (Wissik, in Druck).

3.1.

Tool für die Harmonisierung von Terminologiebeständen ^

[12]
Das von ESTeam entwickelte Tool OMEO dient zur Harmonisierung von Terminologiebeständen, in dem es in einer Sprache jene Einträge findet, die zwar denselben Begriff bezeichnen, aber unterschiedlich aussehen, z.B. weil die Termini eine andere Schreibweise aufweisen. Die Software verwendet zum Vergleich der Benennungen u.a. Synonym-Suche und weitere linguistische Kriterien. Das Resultat ist ein Cluster von Termini, die sich auf denselben Begriff beziehen. Der Vergleich kann innerhalb einer Ressource oder innerhalb einer Sprache und eines Fachgebiets angestellt werden, auf Termebene sowie auf Dokumentebene.
[13]
In OMEO können Daten aus verschiedenen Arten von Terminologieressourcen importiert werden. Es arbeitet semi-automatisch: Alle Einträge, die zusammengeführt werden sollen, werden als „accepted“ (angenommen) markiert, die übrigen müssen über eine Eingabemaske durch Terminologen, Übersetzer oder Fachexperten verifiziert werden. Diese entscheiden dann, ob es sich um Einträge handelt, die harmonisiert werden sollen oder nicht. Im ersten Fall markiert sie der Benutzer manuell mit dem Label „Acc“ für „accepted“. Wenn die Einträge nicht synonym sind und folglich nicht harmonisiert werden sollen, werden sie mit dem Label „Rej“ für „rejected“ (abgelehnt) versehen. Das heißt, es liegt am Ende immer in der Hand der Terminologen, oder jener, die mit der Aufgabe betraut sind, ob Einträge zusammengeführt werden oder nicht (vgl. Wissik in Druck). Nach Abschluss des Harmonisierungsvorganges werden die Daten wieder exportiert und in die ursprüngliche Datenbank oder in eine Zieldatenbank importiert.
[14]
LISE bietet nicht nur OMEO. Nach einer Harmonisierung von Datenbeständen können weitere Arbeitsschritte notwendig sein, um eine qualitativ hochwertige Ressource zu gewinnen, wie z.B. das Cleanen der Datenbank (Cleanup-Tool) oder das Erweitern auf neue Sprachen (Fillup-Tool).

4.

Zusammenfassung und Ausblick ^

[15]
Es wurde gezeigt, dass terminologische Ressourcen unterschiedliche Informationen oder Informationen unterschiedlicher Granularität beinhalten. Um Ressourcen zu schaffen, die eine größere Menge und Bandbreite von Informationen abdecken, wäre es notwendig, mehrere davon zusammenfließen zu lassen und zu harmonisieren. Dieses Unternehmen war bis jetzt mit viel Zeit- und Personalaufwand verbunden und wurde daher nicht oft durchgeführt (vgl. Necsulescu et al. 2011, Crouch/King 2005). Die LISE Tools, die auf der Service-Plattform zur Verfügung gestellt werden, ermöglichen es, terminologische Ressourcen und Datenbestände semi-automatisch zu harmonisieren und somit den Aufwand zu reduzieren. Den Datennutzern, wie z.B. dem hypothetischen Übersetzer in diesem Artikel, wird so der Zugang zu vollständigen terminologischen Informationen auf einen Blick oder auch Klick erleichtert.

5.

Literatur ^

Crouch, D., King, T.H., Unifying Lexical Ressources. In: Erk, K., Melinger, A. & Schulte, S. (Hersg.), Proceedings of the Interdisciplinary Workshop on the Identification and Representation of Verb Features and Verb Classes, Saarbrücken, S. 32–37 (2005).

IATE – Die mehrsprachige Terminologie-Datenbank der EU. http://iate.europa.eu/brochure aufgerufen 04.01.2012.

Nesculescu, S., Bel, N., Padró, M., Marimon, M., & Revilla, E., Towards the Automatic Merging of Language Resources. In: IJCNLP 2011 – Proceedings of the Workshop on Language Resources, Technology and Services in the Sharing Paradigm, Chiang Mai, Thailand (2011). http://www.upf.edu/pdi/iula/muntsa.padro/publicacions/bel_et_al_lrts_sharing_ijcnlp_2011.pdf aufgerufen 04.01.2012.

Wissik, T., International, national and regional legal terminology: challenges and perspectives for a Legal Language Interoperability Service. In: Proceedings of the 18th European Symposium on Language for Special Purposes (LSP). Special Language and Innovation in Multilingual World, Perm State University, 22.-26. August 2011, Perm, Russland (in Druck).

Zentrale Sprachdienste Sektion Terminologie (Hersg.), TERMDAT Leitfaden für die Erarbeitung von Datenbankeinträgen, Schweizerische Bundeskanzlei, Bern (2009).

  1. 1 Zwei oder mehrere Datenbankeinträge mit gleichem oder sehr ähnlichem Inhalt.
  2. 2 Für eine Beschreibung der einzelnen Datenbanken siehe http://www.termdat.ch für TERMDAT, http://www.eurac.edu/bistro (Kapitel „Allgemeine Informationen“) für Bistro und http://iate.europa.eu/iatediff/about_IATE.html sowie http://iate.europa.eu/brochure für IATE.
  3. 3 Vgl. http://www.termdat.ch: 03.01.2012; http://dev.eurac.edu:8080/index/01_bistro_general_all_de.html: 03.01.2012; IATE: 03.01.2012.
  4. 4 Vor der Zusammenführung der Terminologiebestände der europäischen Institutionen hatten EU-Kommission, Parlament und Rat jeweils getrennte Sammlungen (IATE: 03.01.2012).
  5. 5 EU-Rahmenprogramm für Wettbewerbsfähigkeit und Innovation ICT PSP (4. Ausschreibung), Vertrag Nr. 270917.
  6. 6 Die weiteren Partner sind das Institut für Fachkommunikation und Mehrsprachigkeit der Europäischen Akademie Bozen, die österreichische Parlamentsdirektion und die zwei Softwareunternehmen Esteam AB und Cross Language.