Jusletter IT

Juristische Semantisierung mit XML

  • Author: Peter Ebenhoch
  • Category: Short Articles
  • Region: Austria
  • Field of law: Legal Theory
  • Collection: Conference proceedings IRIS 2009
  • Citation: Peter Ebenhoch, Juristische Semantisierung mit XML, in: Jusletter IT 1 September 2009
Es gibt verschiedene Methoden juristische Texte zu schreiben, zu strukturieren und semantisch anzureichern. Diese werden bezogen auf die Textierung von Rechtsnormen verglichen und Semantisierungsoptionen mit strukturierter Textauszeichnung untersucht.

Inhaltsverzeichnis

  • 1. Textauszeichnung
  • 2. Prozedurales Markup
  • 3. Strukturierte Textauszeichnung mit XML
  • 3.1. Generische Textauszeichnung
  • 3.2. Semantisches Markup
  • 4. Strukturierte Textauszeichnung als Metasemantik
  • 4.1. Bedeutung lässt sich nicht automatisieren
  • 4.2. Konzeptuelle Schranken
  • 4.2.1. Zwei-Weltenmodell vs. Performanz-Modell
  • 5. Literatur

1.

Textauszeichnung ^

[1]

Bei dieser durch das WYSIWYG-Prinzip wohl bekanntesten Form der Textauszeichnung, wird Text direkt nach den gewünschten Kriterienvisuell layoutiert und damit indirekt auch strukturiert. Dieses Prinzip wird von den gängigen Textverarbeitungsprogrammen direkt unterstützt. Visuelle Formateigenschaften wie «fett», «kursiv» sowie strukturierende wie «Überschrift 1» können direkt mit der Maus einzelnen Textstellen zugewiesen werden.

[2]

Formatierung und Inhalt werden miteinander gleichgesetzt. Dadurch scheidet die Möglichkeit zur weitergehenden Nutzung der hinterlegten Informationen mit Bezug auf Suche oder Verlinkung weitgehend aus. Die Strukturierung ist nur indirekt erschließbar; die Umwandlung in ein anderes Dateiformat oder in eine barrierefreie Darstellungsform ist nur unter Abstrichen machbar, falls sie überhaupt mit tunlichem Aufwand leistbar ist.

2.

Prozedurales Markup ^

[3]

Beim prozeduralen Markup1 werden im Text Anweisungen an den Satzmechanismus eingebettet. Diese können sich ganz konkret auf visuelle Details beziehen («14 Punkte», «fett», etc.), aber auch auf Strukturen wie Gliederungsebenen und Auflistungen («chapter», «item»). Prozedurales Markup zielt primär auf Papierpublikationen. Bei der Ausgabe in andere gewünschte Formate müssen Abstriche gemacht werden.

[4]

Das wohl bekannteste prozedurale Markupsystem stellt TeX bzw das darauf basierende LaTeX dar. TeX wurde in den 80er Jahren von Donald E. Knuth entwickelt und erlaubt einen sehr komfortablen Formelsatz. Deshalb ist TeX trotz der für Außenstehende ungewohnt wirkenden Vermischung von Text und Formatierungsbefehlen im naturwissenschaftlichen und informatischen akademischen Bereich nach wie vor verbreitet.

3.

Strukturierte Textauszeichnung mit XML ^

[5]

Textauszeichnungssprachen nutzen das einfache Konzept, in den TextverlaufTextmarken – auf Englisch sogenannte «tags » – zu setzen. Während zunächst willkürliche Zeichen die Textmarken vom eigentlichen Text unterscheidbar machten, entwickelten sich im Zuge der Standardisierung von SGML und XML die Spitzklammern als gängigste Variante. Deshalb wird vonstandardisiertem generischen Markup gesprochen. Die Spitzklammern signalisieren den Beginn bzw. – zusammen mit einem abschließenden Querstrich – das Ende einer Textmarke: eigentlicher text.

[6]

Solche – heute üblicherweise auf Basis von XML – eingefügten Textmarken sind sowohl von Menschen als auch durch Computerprogramme lesbar. Sie dienen als Anker für die weitere automatische Verarbeitung, die automatisierte Suche bzw. die spätere Anzeige und Layoutierung der Textinhalte. In der endgültigen Publikation sind sie dann üblicherweise nicht mehr direkt sichtbar.

[7]

Das Auftreten und die Verschachtelung der einzelnen Textmarken und deren Vorkommen kann durch Hinterlegung eines Regelwerks als Strukturgrammatik mit einer sogenannten Dokumententyp-Definition2 (DTD) festgelegt werden. Die Namen für die Textmarken – wie zB oder – können vorab mit der DTD definiert und festgelegt werden. XML hat sich durchgesetzt und stellt das zentrale elektronische Format für die strukturierte Erfassung, Verwaltung und Publikation von Information dar3 .

3.1.

Generische Textauszeichnung ^

[8]

Zur Bezeichnung der Textmarken bietet sich zunächst die Unterscheidung nach Strukturebenen, Blockelementen (wie Absätzen, Listen, Tabellen und Grafiken) sowie Fließtext an. Ähnlich wie bei Absatzformaten in Textverarbeitungen werden so identische Formatierungen – wie z.B. p für Paragraph oder table für Tabelle – ausgezeichnet4 . Die visuelle Umsetzung erfolgt danach über ein «Stylesheet» durch das Satzprogramm.

3.2.

Semantisches Markup ^

[9]

Durch eine stärkere inhaltliche Bezugnahme zum konkreten Fachtext lassen sich die Bezeichnungen für die Textmarken semantisch spezifischer festlegen. So wird es möglich, bei der Erstellung eines Informationsmodells für juristische Inhalte eigene juristische Elemente einzuführen.

[10]

Beispielsweise lassen sich Elemente für das Inkrafttreten und Außerkrafttreten von Rechtsnormen und für das über- oder untergeordnete Verhältnis von Rechtsnormen modellieren sowie spezifische juristische Paragrafen an Stelle einfacher Textabsätze vorsehen. Selbst in einem Absatz kann weiter differenziert werden, beispielsweise mit spezifischen Elementen für Tatbestand und Rechtsfolge.

[11]

Diese direkte inhaltliche Bezugsetzung von zu bezeichnenden Textfragmenten und den verwendeten Elementbezeichnungen wird als «semantisches Markup» bezeichnet.

4.

Strukturierte Textauszeichnung als Metasemantik ^

[12]

In semiotischer Hinsicht wirken die Textmarken gleichzeitig als Symbole und Indizes. Bei der Anwendung semantischer Textauszeichnungen wird diese über den Text gelegte Struktur semantisch aufgeladen, so dass die Elemente als Symbole Bedeutung bezogen auf den umfassten Inhalt und zum Verhältnis der anderen Elemente zugewiesen erhalten (insofern die Zeigewirkung eines Index ).

[13]

Die Erstellung derartig ausgezeichneter Inhalte erfordert ein hohes Fachwissen sowohl über die inhaltliche Bewertung des jeweiligen Textabschnitts als auch bezogen auf die eingesetzte DTD. Die in der DTD hinterlegten Bedeutungen der einzelnen Elementnamen müssen dem jeweiligen Autor bzw. der Autorin gegenwärtig und klar sein. Je semantischer und spezifischer eine DTD gestaltet ist, umso aufwändiger und intellektuell anspruchsvoller wird diese Arbeit. Da etwaige Fehler inhaltlich-fachliche Fehler in Bezug zum jeweiligen semantischen Informationsmodell sind, scheidet eine syntaxgesteuerte computergestützte inhaltliche Qualitätssicherung aus.

[14]

Zwar erhöht jegliche Form der Textauszeichnung – sei es visuell, prozedural, generisch oder semantisch – den Aufwand für die Texterstellung, verglichen mit dem Schreiben eines einfachen unformatierten Textes. Dem Vorteil semantisierter Rechtsinhalte, dank ausgefeilter inhaltlicher Textmarken nicht nur den Text sondern auch die Struktur5 , Metadaten, Verlinkungsoptionen oder gar Rechtsfolgen direkt aus dem XML-Bestand ableiten zu können, steht allerdings ein entsprechend aufwändiger und anspruchsvoller Texterstellungsprozess gegenüber, der nur von fachlichen und spezifisch auf die DTD eingeschulten Personen beherrschbar ist.

4.1.

Bedeutung lässt sich nicht automatisieren ^

[15]

Automatische Texterkennung und regelbasierte Textanalyse ist für Zwecke der Textauszeichnung nur begrenzt nutzbar. Die Ursache liegt darin, dass Bedeutung nur von Menschen wahrgenommen und erzeugt werden kann. Eine Computerunterstützung macht nur hinsichtlich abgeleiteter Sekundärtexte wie z.B. der Indexerstellung Sinn. Je semantischer eine DTD ein Informationsmodell abbildet, umso schwieriger wird die Unterstützung durch Computerprogramme und umso aufwändiger wird die Inhaltserstellung.

4.2.

Konzeptuelle Schranken ^

[16]

In linguistischen Fachkreisen wird auf das Verhältnis der Transformationsgrammatik von Chomsky mit XML hingewiesen6 . Die Ähnlichkeit zwischen der Informationsmodellierung mit einer DTD und der formalen Repräsentation durch Phrasenstrukturregeln nachChomsky gehen so weit, dass eine direkte Überführung von einer Repräsentation in die andere problemlos möglich ist7 . Eine der wissenschaftstheoretischen Grundannahmen vonChomsky stellt die Annahme dar, dass es hinter der alltäglichen Sprech- und Schreibsituation eine theoretische und ideale gibt8 . Die Grammatik, um die es geht, ist demnach immer eine ideale, gedachte Grammatik9 .

4.2.1.

Zwei-Weltenmodell vs. Performanz-Modell ^

[17]

Krämer bezeichnet diese Grundannahme als «Zwei-Welten-Modell10 »11 . Sie stellt deren Verfechter, zu denen sie nebenChomsky auchSaussure, Searl e undHabermas zählt,Wittgenstein, Austin, Luhmann12 ,Davidson, Lacan, Derrida undButler gegenüber und bezeichnet deren Grundposition als Performanz-Modell13 .

[18]

Demnach existiert keine ideale Grammatik und vereitelt die situative und sich dauernd erneuernde sprachliche Performanz jeden Versuch einer theoretischen Unterfütterung. Das heißt auch, dass sprachliche Äußerungen korrekt gebildet werden können,ohne dass eine dahinter liegende ideale Universalgrammatik existiert . Die Starrheit von Dokumententypen stellt demnach ein essenzielles Manko des Ansatzes strukturierter Textauszeichnung dar. Es könnte bedeuten, dass eine abgeschlossene und enge semantische Strukturgrammatik in Form einer DTD nicht die Mächtigkeit haben kann, die im Recht benötigte inhaltliche Flexibilität, deren Anforderungen sich im Laufe der Zeit auch ändern können, abzubilden.

[19]

Bei einer zu semantischen DTD bestünde die Gefahr, dass einige Dokumente überhaupt nicht mit Textauszeichnungen versehen werden können. Was also bislang von Legisten erstellt wurde14 , lässt sich unter Umständen mit einer ausgeprägten semantischen DTD gar nicht erfassen. Bei einer zu generischen und zu flexiblen DTD entstünde dieses Problem zwar nicht. Dafür fehlte jede juristische Metasemantik. Die flexibel gesetzten einfachen Textmarken unterbänden in diesem Fall jegliche Anwendung in Richtung einer automatisierten Erschließung der Semantik von vornherein.

[20]

Die MetaLex-Initiative schlägt deshalb vor, generische XML-Elemente zu nutzen und die Semantik mit XML-Attributen zu erfassen. Dadurch bleiben die Inhalte strukturell austauschbar. Freilich löst dieser Ansatz das Problem nicht auf einer inhaltlichen Ebene. Das Ziel, automatisch zwischen generischer und semantischer Auszeichnung zu wechseln («from generic to descriptive and vice versa»), wird damit technisch ermöglicht. Es setzt aber immer noch die Notwendigkeit voraus, dass die semantischen Auszeichnungen – mögen es auch Attribute sein – vollständig und inhaltlich korrekt gesetzt werden.

[21]

Die Umwandlung lässt sich nur in die Richtung einer geringeren Semantik sinnvoll durchführen. Fehlende inhaltliche Textauszeichnungen können nicht automatisch ergänzt werden. Semantik entsteht nie von alleine, sondern immer nur durch menschliches Zutun.

5.

Literatur ^

CEN: Workshop Agreement Metalex (CWA 15710). Open XML Interchange Format for Legal and Legislative Resources. Brüssel, 2007
Chomsky, Aspekte der Syntax- Theorie1, Suhrkamp, Frankfurt a.M., 1969
Kelsen, Reine Rechtslehre2, Österreichische Staatsdruckerei, Wien, 1992
Krämer, Sprache, Sprechakt, Kommunikation1, Suhrkamp, Frankfurt am Main, 2001
Luhmann, Einführung in die Systemtheorie2, Carl-Auer-Systeme, Heidelberg, 2004
Magnusson Sjöberg, Critical factors in legal document management, Jure AB, Stockholm, 1998
Reisinger, Strukturwissenschaftliche Grundlagen der Rechtsinformatik, Leykam, Graz-Wien, 1987
Schweighofer, Rechtsinformatik und Wissensrepräsentation, Springer, Wien/New York, 1999
Tammelo/Schreiner, Grundzüge und Grundverfahren der Rechtslogik, UTB, München, 1977
Travis/Waldt, The SGML implementation guide, Springer, Berlin, 1995
Witt, SGML und Linguistik. In: Lobin, Henning (Hrsg):Text im digitalen Medium , Wiesbaden, Westdeutscher Verlag, 1999, 121-153



Peter Ebenhoch, Blattur 84, 6840 Götzis, AT
ebenhoch@yahoo.com

  1. 1 Die Darstellung folgtTravis/Waldt, The SGML implementation guide, Springer, Berlin, 1995, 22-28, insbesondere 24f.
  2. 2 Inzwischen sind erweiterte Notationsmöglichkeiten wie W3C Schemas oder RelaxNG für die Grammatik verfügbar. Das Prinzip dahinter bleibt aber das gleiche.
  3. 3 Inhaltsbezogen bilden XML-basierte Standards wie beispielsweise DocBook oder DITA die Grundlage für die Erfassung, die Überarbeitung und das Publizieren von Information im Bereich technischer Dokumentation und im Verlagswesen. Darüber hinaus dient XML auch als Grundlage für die Bildung von Metadatenstandards wie dem Dublin Core und für das sogenannte Semantic Web. Als Semantic Web werden einige auf XML basierende Technologien wie das Resource Description Framework (RDF) oder Topicmaps bezeichnet, mit denen das Internet strukturiert und inhaltlich maschinenverarbeitbar erschlossen werden soll. Das Konzept und der Begriff «Semantic Web» stammen vom HTML-Entwickler Tim Berners-Lee.
  4. 4 Travis/Waldt , SGML, 25.
  5. 5 Schweighofer, Rechtsinformatik und Wissensrepräsentation, Springer, Wien/New York, 1999, 219 weist zB auf den Vorteil der Strukturierung (bezogen auf SGML) hin.
  6. 6 Witt, SGML und Linguistik. In: Lobin, Henning (Hrsg):Text im digitalen Medium , Wiesbaden, Westdeutscher Verlag, 1999, 121-153.
  7. 7 Witt , SGML und Linguistik, 123 f.
  8. 8 VglChomsky, Aspekte der Syntax- Theorie1, Suhrkamp, Frankfurt a.M., 1969, 14: «Wir machen somit eine grundlegende Unterscheidung zwischen Sprachkompetenz (competence; die Kenntnis des Sprecher-Hörers von seiner Sprache) und Sprachverwendung (performance; der aktuelle Gebrauch der Sprache in konkreten Situationen).»
  9. 9 Chomsky , Aspekte, 15: «Die Grammatik einer Sprache versteht sich als Beschreibung der immanenten Sprachkompetenz des idealen Sprecher-Hörers.».
  10. 10 Krämer, Sprache, Sprechakt, Kommunikation1, Suhrkamp, Frankfurt am Main, 2001, 10.
  11. 11 Krämer, Sprache, Sprechakt, Kommunikation1, Suhrkamp, Frankfurt am Main, 2001, 10.
  12. 12 Vergleiche dazu zB Luhmanns‘ Äußerung: «Sprache ist kein System.»,Luhmann, Einführung in die Systemtheorie2, Carl-Auer-Systeme, Heidelberg, 2004, 279.
  13. 13 Krämer , Sprache, Sprechakt, Kommunikation, 13.
  14. 14 Die Übernahme von Altdaten in eine semantisch ausgerichtet DTD ist überhaupt häufig nur mit sehr hohem intellektuellem Zusatzaufwand leistbar. Bei der Neuerstellung von Inhalten fällt es bei guter Vorbereitung (passende DTD, guter XML-Editor, Schulungen) leichter, auf semantische DTD zu setzen.