Jusletter IT

Semantische Technologien: Stand der Forschung und Visionen

  • Authors: Michael Granitzer / Wolfgang Kienreich
  • Category: Short Articles
  • Region: Austria
  • Field of law: Semantic technology
  • Collection: Conference proceedings IRIS 2010
  • Citation: Michael Granitzer / Wolfgang Kienreich, Semantische Technologien: Stand der Forschung und Visionen, in: Jusletter IT 1 September 2010
Semantische Technologien versprechen Lösungen für viele Probleme, mit denen Anwender inhaltsbasierter Such- und Analysesysteme täglich konfrontiert werden. Zwei grundlegend unterschiedliche Ansätze charakterisieren dieses junge Fachgebiet. Einerseits wird versucht, bestehende semantische Strukturen unter Verwendung von Wissensrepräsentationsmethoden zu modellieren und zugänglich zu machen. Andererseits wird versucht, semantische Strukturen unter Verwendung mathematischer Verfahren aus unstrukturierten Inhalten zu erschließen. Die Resultate beider Ansätze trennt eine semantische Lücke, die auf den qualitativen Unterschied zwischen manuell generierter und automatisch extrahierter Semantik zurückzuführen ist. Auch wenn diese Lücke in der Praxis oft schmal gehalten oder umgangen werden kann, bleibt es die Vision des Fachgebietes, einer kontinuierlichen Integration von extrahierter und modellierter Semantik zu erreichen.

Inhaltsverzeichnis

  • 1. Einführung
  • 2. Wissensmodellierung
  • 3. Wissenserschließung
  • 4. Die semantische Lücke
  • 5. Die Praxis
  • 6. Ausblick
  • 7. Acknowledgement

1.

Einführung ^

[1]

Kaum eine Vision hat die Entwicklung informationstechnologischer Systeme in den letzten Jahren so sehr geprägt wie der des Semantic Web1 . Semantische Technologien setzen sich zum Ziel, die Bedeutung von Informationsartefakten für Maschinen verständlich und nutzbar zu machen. Gerade auf dem Gebiet der Rechtsinformatik, zu dessen zentralen Werkzeugen Experten- und Recherche-Systeme zählen, versprechen semantische Technologien einen hohen konzeptionellen und technologischen Nutzen.

[2]

Betrachtet man die Aufgabenstellungen, die sich das Fachgebiet der semantischen Technologien setzt, und die Herangehensweisen, die zur Lösung dieser Aufgabenstellungen gewählt werden, so offenbaren sich zwei grundlegend unterschiedliche Ansätze. Einerseits wird versucht, das implizite Wissen von Domänenexperten durch die Anwendung von Verfahren zur Wissensmodellierung und Wissensrepräsentation explizit und für Problemlösungen nutzbar zu machen. Andererseits wird versucht, das in Informationsartefakten implizit enthaltene Wissen durch die Anwendung von Verfahren zur Wissenserschließung explizit zu machen. Zwar verwenden beide Ansätze dieselben technologischen Grundlagen und Standards; Jedoch trennt die mit beiden Ansätzen gewonnenen Resultate oft eine konzeptionelle Distanz, die als semantische Lücke bekannt geworden ist und deren Überbrückung die zentrale Vision des Fachgebietes darstellt.

2.

Wissensmodellierung ^

[3]

Die Wissensmodellierung2 beschäftigt sich mit der strukturierten Abbildung von Domänenwissen unter Verwendung von unterschiedlichen Methoden der Wissensrepräsentation. Traditionell fanden dazu die aus den Informations- und Dokumentationswissenschaften bekannte Repräsentationsformen, wie etwa Taxonomien oder Thesauri, Anwendung. Im Umfeld moderner semantischer Technologien werden bevorzugt Ontologien verwendet. Eine Ontologie ist eine explizite formale Spezifikation einer Konzeptualisierung3 und kann sowohl die abstrakte Struktur als auch die konkreten Inhalte einer Wissensdomäne beschreiben. Aufgrund der Bedeutung dieser Repräsentationsform für semantische Technologien wurden verschiedene technologische Standards für die Abbildung von Ontologien , darunter RDF4 und OWL5 , definiert. Der von der Verwendung von Ontologien erwartete Nutzen liegt neben der Vereinfachung von Such- und Analyseaufgaben vor allem in der Möglichkeit, durch die automatische Anwendung von logischen Regeln einmal modelliertes Wissen zu validieren und zu erweitern («reasoning»).

[4]

Ein klassisches rechtliches Anwendungsbeispiel für Wissensmodellierung ist das Mietrecht. Die Diversität der entsprechenden gesetzlichen Grundlagen erschwert etwa die Erstellung von Mietverträge und die Prüfung von Mietverträgen auf Korrektheit enorm. Werden die entsprechenden Regelwerke durch Domänenexperten modelliert und unter Verwendung von semantischen Technologien abgebildet, so ist es möglich, diese Aufgaben zumindest teilautomatisiert durchzuführen.

3.

Wissenserschließung ^

[5]

Die Wissenserschließung beschäftigt sich mit der Extraktion von Domänenwissen aus unstrukturierten oder teilstrukturierten Informationsartefakten. Automatisierte Verfahren aus dem Bereich der Informationsextraktion sind beispielsweise in der Lage, Personen, Organisationen und Orte in Textdokumenten erkennen. Damit entsteht aus textueller Information Wissen über die für eine Domäne relevanten Konzepte. Automatisierte Verfahren aus dem Bereich des maschinellen Lernens sind beispielsweise in der Lage, auf Basis enthaltener Konzepte aus Textdokumenten eine Taxonomie zu generieren oder Textdokumente in eine vorgegebene Taxonomie einzuordnen. Damit entsteht aus textueller Information Wissen über die Strukturierung einer Domäne. Fortgeschrittene Verfahren der Wissenserschließung sind auch in der Lage, Ontologien direkt aus Informationsartefakten zu lernen6 .

[6]

Ein klassisches rechtliches Anwendungsbeispiel für Wissenserschließung ist das Patentrecht. Die Formulierung einer Patentschrift erfordert die Berücksichtigung von Vorveröffentlichungen und damit die Suche nach relevanten Patentschriften in Millionen Dokumente umfassenden Archiven. Durch den Einsatz von Methoden der Wissenserschließung ist es möglich, diese Aufgabe automatisiert und unter Berücksichtigung sprachlicher und struktureller Barrieren zu lösen.

4.

Die semantische Lücke ^

[7]

Werden Methoden der Wissensmodellierung und der Wissenserschließung gemeinsam eingesetzt, so macht sich häufig ein Phänomen bemerkbar, das als semantische Lücke bezeichnet wird. Die im Rahmen der Wissensmodellierung manuell generierten semantischen Strukturen beschreiben Wissensdomänen auf hoher Ebene und entsprechend dem mentalen Modell der beteiligten Domänenexperten. Die im Rahmen der Wissenserschließung generierten semantischen Strukturen beschreiben Wissensdomänen auf niedriger Ebene und entsprechend den verwendeten inhaltlichen Merkmalen und mathematischen Verfahren. Eine Vereinheitlichung der mit beiden Vorgehensweisen generierten semantischen Strukturen fällt oft schwer (vgl. Abb. 1).

[8]

Ein klassisches rechtliches Beispiel für diese Problematik ist die Verwaltung und Analyse von Gerichtsurteilen. Verfahren aus dem Bereich der Wissenserschließung sind in der Lage, aus umfangreichen Urteilssammlungen anhand inhaltlicher Merkmale automatisiert Taxonomien zu erstellen. Die so entstandenen Taxonomien werden aber in Aufbau und Inhalt wenig mit jener gemein haben, die Domänenexperten im Rahmen einer Modellierung des entsprechenden Rechtsgebietes erarbeiten würden. Denn die Experten verwenden Konzepte aus ihrem Domänenwissen heraus und ohne Berücksichtigung der konkreten Inhalte. Die Automatismen operieren dagegen ausschließlich auf den Inhalten und ohne Verständnis des Rechtsgebietes.

5.

Die Praxis ^

[9]

In der Praxis ist es oft möglich, die semantische Lücke schmal zu halten oder sie ganz zu umgehen. Existiert beispielsweise modelliertes Wissen über eine Anwendungsdomäne, so kann die entsprechende Wissensrepräsentation als Ausgangspunkt in der Wissenserschließung verwendet werden. Die Erschließungsverfahren operieren dann unter Verwendung der von Experten definierten Konzepte und entsprechende Resultate sind näher an der Erwartungshaltung der Anwender. Auch können Visualisierungsverfahren Anwendern helfen, Zusammenhänge zu identifizieren, die maschinell nicht erfasst werden konnten. Beispiele zu dieser Vorgehensweise finden sich vielfach in patentrechtlichen Recherche-Systemen7 .

6.

Ausblick ^

[10]

Die Integration von Wissensmodellierung und Wissenserschließung bleibt die große Vision auf dem Gebiet der semantischen Technologien. Zielvorstellung ist ein kontinuierlicher Prozess der Ontologieevolution8 , in dem Methoden der Wissensmodellierung und Wissenserschließung gemeinsam eingesetzt werden, um die Repräsentation einer Wissensdomäne zu generieren und aktuell zu halten. Dazu wird ein initiales Wissensmodell von Domänenexperten erstellt. Anschließend wird Wissenserschließung basierend auf den Inhalten von entsprechenden Informationsartefakten angewandt, um das initiale Modell aktuell zu halten, indem etwa Konzepte und Beziehungen eingefügt, modifiziert oder entfernt werden (vgl. Abb.2).

[11]

Neben der Klärung methodologischer Fragestellungen ist auch der Aufbau einer entsprechenden Infrastruktur ein wesentliches Zukunftsthema für die Anwendung semantischer Technologien im rechtlichen Umfeld. Ontologieevolution ist nur möglich, wenn entsprechende Informationsartefakte oder Wissensrepräsentationen zeitnah und in einheitlichen oder aufeinander abbildbaren Formaten zur Verfügung stehen. Initiativen wie Linked (Open) Data9 zeigen, dass diese Zielvorstellung im allgemeinen Umfeld erreichbar ist. Angesichts des zentralisierten und hochstrukturierten Charakters von rechtlichen Datenquellen sind im juristischen Umfeld allerdings die gesetzgebenden Instanzen, etwa im Rahmen von e-Government-Initiativen, besonders gefordert.

7.

Acknowledgement ^

[12]

Das Know-Center wird im Rahmen des Österreichischen COMET-Programms – Competence Centers for Excellent Technologies – gefördert. Das Programm steht unter der Schirmherrschaft des Österreichischen Bundesministeriums für Verkehr, Innovation und Technologie, des Österreichischen Bundesministeriums für Wirtschaft und Arbeit und des Landes Steiermark. Die Abwicklung erfolgt durch die Österreichische Forschungsförderungsgesellschaft FFG.



Michael Granitzer, Assistenzprofessor an der TU Graz und Leiter des Bereiches für Wissenserschließung am Know-Center Graz
TU Graz, Institut für Wissensmanagement und Know-Center, Kompetenzzentrum für Wissensmanagement, Inffeldgasse 21a, 8010 Graz AT
mgrani@know-center.at;www.know-center.at

Wolfgang Kienreich, Stv. Leiter des Bereiches für Wissenserschließung am Know-Center Graz, Kompetenzzentrum für Wissensmanagement, Inffeldgasse 21a
8010 Graz AT
wkien@know-center.at;www.know-center.at

  1. 1 Berners-Lee, T./Hendler, J./Lassila, O., The Semantic Web, Scientific American 284 (2001), S.34-43.
  2. 2 Kienreich, W./Strohmaier, M., Wissensmodellierung - Basis für die Anwendung semantischer Technologien, in: Pellegrini, T./ Blumauer, A., Semantic Web - Wege zur vernetzten Wissensgesellschaft, Springer Berlin Heidelberg, (2006), S. 359-371.
  3. 3 Gruber, T.R., A translation approach to portable ontologies, Knowledge Acquisition, 5(2), London (1993), S. 199-220.
  4. 4 W3C Consortium, Resource Description Framework (RDF),www.w3.org/RDF/
  5. 5 W3C Consortium, Web Ontology Language (OWL) ,www.w3.org/2004/OWL/
  6. 6 Buitelaar, P./Cimiano, P./Magnini, B., Ontology Learning from Text: Methods, Evaluation and Applications, Frontiers in Artificial Intelligence and Applications (123), IOS Press Amsterdam (2005)
  7. 7 Sabol, V./Kienreich, W./Muhr, M./Klieber, W./Granitzer, M., Visual Knowledge Discovery in Dynamic Enterprise Text Repositories, Proceedings of the 13th International Conference on Information Visualisation (IV09), IEEE Computer Society (2009)
  8. 8 Leenheer, P./Mens, T., Ontology evolution, in: Ontology Management, Computing for Human Experience, Hepp, M./ Leenheer, P./Moor, A./Sure, Y. (Ed) Springer, Boston, USA (2008), Vol.7, Kap.5, Seite 131-176
  9. 9 Bizer C./Heath, T./Berners-Lee, T., Linked Data - The Story So Far. International Journal on Semantic Web and Information Systems, Special Issue on Linked Data (2009)