1.
Einleitung ^
- Was sind die technischen Enabler und institutionellen (immaterialgüterrechtlichen) Rahmenbedingungen der Datenbewirtschaftung unter netzökonomischen Bedingungen?
- Welche Auswirkungen hat dies auf die Lizenzierungspraxis von Unternehmen und öffentlichen Organisationen in Bezug auf die Definition von maschinenlesbaren Licensing Policies?
- Was ist der aktuelle Status der Linked Data Lizenzierung und welcher Handlungsbedarf erwächst daraus?
2.
Linked Data – Technologische Grundlagen und Wertschöpfungsbeitrag ^
Konventionelle Datenbereitstellungsstrategien in Form von (semi-)strukturierten Dokumenten (z.B. HTML, CSV-Dateien) oder proprietären APIs werden nur bedingt den Ansprüchen hoch vernetzter und dynamischer Daten-Ökosysteme gerecht. Mit jeder zusätzlichen Quelle steigen die Integrationsaufwände exponentiell, Veränderungen in der Datenbankstruktur gehen oftmals zu Lasten der Systemintegrität und Aktualisierungen der Datenbasis sind meist nur unter hohen Aufwänden in Echtzeit verfügbar. Hier setzt der Linked Data Ansatz an, der eine höchstmögliche technische Interoperabilität anstrebt und so die kosteneffiziente und zeitkritische Integrierbarkeit, eindeutige Interpretierbarkeit und Wiederverwendbarkeit von dispersen Daten ermöglicht. Linked Data bedient sich sogenannter Semantic Web Standards1 um existierende Datenbestände hoch strukturiert aufzubereiten und plattformunabhängig für die Integration und Syndizierung bereitzustellen. Hierbei werden Daten mittels des normierten Datenmodells RDF (Resource Description Framework; siehe W3C 2004) strukturiert und verfügbar gemacht. Die semantisch angereicherten Daten werden im konventionellen Sinne nicht relational sondern als Graph repräsentiert. Sowohl die Knoten als auch die Kanten des Graphen sind über URIs (Uniform Resource Identifiers) eindeutig identifizierbar und referenzierbar. Dieser semantische RDF-Graph kann mittels der normierten Abfragesprache SPARQL (W3C 2008) feingranular und in hoher semantischer Tiefe abgefragt werden. Dies erlaubt die leichte Formulierung expressiver Datenbankabfragen, die mit konventionellen Mitteln entweder gar nicht oder nur mit hohen technischen und personellen Aufwänden machbar wären.
Linked Data zielt insbesondere auf die Erhöhung der Datenportabilität zwischen unterschiedlichen IT-Systemen und -Anwendungen ab. Die gehobene semantische Interoperabilität erlaubt die kosteneffiziente Zusammenführung verteilt vorliegender Datensets, die Entwicklung von service-orientierten Produkten und ermöglicht eine Bewirtschaftung des digitalen Contents entlang der gesamten Wertschöpfungskette (Mitchell/Wilson 2012; Cranford 2009).2
- Nutze eindeutige Identifikatoren (Uniform Resource Identifiers – URIs) als Name für Dinge.
- Nutze http-URIs um diese Dinge im World Wide Web auffindbar zu machen.
- Nutze den RDF-Standard zum Annotieren der URIs mit sinnvoller Kontextinformation.
- Verknüpfe URIs mit anderen URIs um weitere Informationen auffindbar zu machen.
Als konkrete Manifestation des Linked Data Paradigmas lässt sich die seit 2007 stetig wachsende «Linked Data Cloud»4, eine dezentrale und kollaborativ gewachsene Infrastruktur aus RDF-Daten, anführen. Diese Data Cloud umfasste mit Stand 2013 mehrere hundert Milliarden Fakten aus unterschiedlichsten Themenfeldern und mittlerweile tausenden Datenquellen.5 Diese Daten sind vorwiegend offen lizenziert und werden bereits aktiv kommerziell genutzt. So veröffentlichen Unternehmen und öffentliche Organisationen ihre Datensets in der Linked Data Cloud und nutzen gleichzeitig deren Daten um hauseigene Datenbestände anzureichern und Rich Content Anwendungen darauf aufzusetzen. Insbesondere Unternehmen aus der Pharma-Industrie (z.B. Roche, Merck, Elly Lilly) und der Medienbranche (z.B. BBC, NY Times, Reuters, Reed Elsevier, Wolters Kluwer, Pearson Publishing, Springer Verlag, ACM, Agence France Press, Google, Facebook) haben sich als Early Adopter von Linked Data Technologien hervorgetan.6
3.1.
Asset-Typen in der Bewirtschaftung ^
Eine differenzierte Betrachtung der technischen Prozessierung von semantischen Metadaten offenbart ein komplexes Gefüge aus Assettypen, die als technische Artefakte einen wertschöpfenden Beitrag in der Content-Produktion leisten und durch entsprechende Schutzinstrumente auch Kapitalcharakter haben. Dies ergibt sich im Wesentlichen aus dem gewerblichen Rechtsschutz geistiger Schöpfungen durch Rechtsinstrumente wie das Urheberrecht, das Datenbankrecht, das Patentrecht u.a.m. Im Kontext von Linked Data treten neben die klassische Vermarktungseinheit «Dokument» auch sogenannte Metadata-Assets ins Zentrum der Schutzwürdigkeit. Je nach Reichhaltigkeit und Expressivität der semantischen Aufbereitung lassen sich folgende Metadata-Assets unterscheiden (Tabelle 1):
Metadata Assets | Strukturelle und technische Artefakte für die Erzeugung von Linked Data |
Datensatz | Strukturierte Sammlung und Aufbereitung von Rohdaten |
URIs (Uniform Resource Identifiers) | Eindeutige Identifikatoren als Bezeichner und Adresse für Entitäten eines Datensatzes |
Namespaces | Eindeutige Namensräume zur Dereferenzierung von URIs |
Vokabulare | Eindeutige domänen- und funktionsspezifische Begrifflichkeiten zur Annotation für deskriptive, strukturelle oder administrative Zwecke |
Schemata | Formales Modell zur Strukturierung von Daten durch Selektion, Kombination und Mapping von Vokabularen |
Ontologien | Formale Modelle um Beziehungen zwischen und Eigenschaften von Metadaten abzubilden |
Regeln | Logische Operationen zur automatischen Erschließung von Information aus Ontologien |
Tabelle 1: Metadata Assets in der technischen Bewirtschaftung von Online-Content
Aus der Prozessierung semantischer Metadaten lassen sich in Folge weitere Assettypen ableiten, die als «2nd Order Information» bezeichnet werden sollen. Hierbei lassen sich vier Kategorien unterscheiden: 1) Referenzen als Sammlung von Verweisen innerhalb und zwischen Dokumenten (z.B. als Indices); 2) Inferenzen als automatische Erschließung impliziter Information aus semantisch verknüpften Datensets (z.B. als Queries); 3) Präferenzen als gebrauchsspezifische Muster der Interaktion mit digitalen Artefakten (z.B. als anonymisierte Nutzerprofile); und 4) Konfidenzen als personenbezogene Profile aus Transaktionsspuren, Sozial-, Stimmungs- und Meinungsmustern. Tabelle 2 erläutert die unterschiedlichen Assettypen.
2nd Order Information | Information, die aus der Prozessierung semantischer Metadaten entsteht |
Referenzen | Aggregation kontextrelevanter Ressourcen in Form von semantischen Indices. Diese können sowohl Dokumente als auch Instanzdaten enthalten. |
Inferenzen | Queries zur logik-basierte Erschließung impliziter Information im semantischen Graphen. |
Präferenzen | Gebrauchssensitive Empfehlung und Filterung von Ressourcen auf Basis konstitutiver, regulativer und generativer Regeln (Beer 2009, S. 994). |
Konfidenzen | Beobachtung und Analyse nutzerbezogener, bewusster und unbewusster Transaktionsspuren, Interessen und Stimmungsmuster. |
Tabelle 2: 2nd Order Information in der Prozessierung semantischer Metadaten
3.2.
Rechtsschutz von Linked Data ^
Die Lizensierungsfrage von Linked Data ist nicht trivial, zumal unterschiedliche Bestandteile eines semantischen Ordnungssystems mit unterschiedlichen Rechtsinstrumenten geschützt werden können. Zur Anwendung kommen in der folgenden Übersicht das Urheberrecht, das Datenbankrecht und das Recht gegen unlauteren Wettbewerb.7 In Anlehnung an Sonntag (2006) lassen sich folgende Schutzobjekte unterscheiden (Tabelle 3):
Urheberrecht | Datenbank-Recht | Wettbewerbsrecht | |
Dokument | Ja | Ja | Ja |
Datensatz | Nein | Ja | Ja |
Identifikatoren | Nein | Ja | Nein |
Namensräume | Ja | Nein | Ja |
Vokabulare | Teilw. | Ja | Ja |
Schemata | Teilw. | Ja | Ja |
Ontologie | Teilw. | Ja | Ja |
Regeln | Teilw. | Ja | Ja |
Inferenzen | Ja | Ja | Ja |
Referenzen | Ja | Ja | Ja |
Präferenzen | Ja | Ja | Ja |
Konfidenzen | Ja | Ja | Ja |
Tabelle 3: Rechtsschutz von Linked Data (in Anlehnung an Sonntag 2006)
3.3.
Rechtsschutz unter netzökonomischen Bedingungen ^
Während Metadaten bisher aufgrund ihrer oftmals proprietären Strukturen und Repräsentationsstandards nicht dazu geeignet waren, auf Basis netzwerkökonomischer Prinzipien bewirtschaftet zu werden, ändert sich dies mit Linked Data grundlegend. Asset Creation durch Linked Data bedeutet, die werthaltigen Artefakte differenziert mit Lizenzen zu versehen, welche die skalenökonomischen Effekte von Netzgütern stützen oder beschränken.8 Hierbei gilt, dass die traditionell vorherrschende Philosophie «starker Eigentumsrechte» mit dem viralen, selbstorganisierenden und dezentralen Charakter des World Wide Web nur eingeschränkt kompatibel ist. Deshalb kommen vermehrt Commons-basierte bzw. offene Lizenzmodelle – oft in Kombination mit geschlossenen Lizenzmodellen in Form eines Dual Licensings – zum Einsatz.9
4.
Licensing Policies und Rights Expression Languages für Linked Data ^
4.1.
Open Digital Rights Language (ODRL) ^
Seit dem Jahr 2011 entwickelt die ODRL Arbeitsgruppe der W3C Community and Business Group12 ein hoch expressives RDF/XML Vokabulars zur Auszeichnung von Policies für die automatisierte Interaktion mit Online Content. ODRL baut auf einem Entity-Attribute-Modell auf, das eine feingranulare, maschinenlesbare Definition von Nutzungsrechten für digitale Assets erlaubt. Die Version 2.0 enthält 50 Ausprägungen in Bezug auf Rechte und Pflichten, 27 Verbotstypen und 10 Operatoren. ODRL eignet sich aufgrund seiner hohen Expressivität ideal zur Definition von Community Normen entlang unterschiedlicher Assets, Nutzertypen und Szenarien.
Die hohe Expressivität und damit verbundene Implementierungskomplexität des ODRL-Vokabulars hemmte bisher die Adaption des Standards für kommerzielle Zwecke. Im Jahr 2013 begann das International Press and Telecommunications Council (IPTC) unter der Bezeichnung RightsML13 an einer leichtgewichtigen Adaption von ODRL für Zwecke der Lizenzierung von News-Content zu arbeiten.14
4.2.
Creative Commons Rights Expression Language (CCREL) ^
Komplementär zu ODRL hat sich die Creative Commons Rights Expression Language (CCREL)15 für urheberrechtsrelevante Schutzaspekte etabliert. Sie ist das Ergebnis einer informellen W3C Arbeitsgruppe, die ihre RDF-Spezifikationen im Jahr 2008 veröffentlichte und seither von der Creative Commons Foundation als Standard für die maschinelle Auszeichnung von Creative Commons Lizenzen empfohlen wird.
4.3.
Open Data Commons ^
5.
Status Quo der Linked Data Lizenzierung – Diskrepanz zwischen Theorie und Praxis ^
Eine Untersuchung der verwendeten Lizenzen in der Linked Data Cloud (Pellegrini/Ermilov 2013) offenbart eine aus mehreren Perspektiven unbefriedigende Situation. Tabelle 4 veranschaulicht die Lizenzmodelle jener Linked Data Sets, die über das Datenportal http://datahub.io zur Verfügung gestellt werden.16
License | Number of Datasets |
License Not Specified | 251 |
Creative Commons Attribution | 135 |
Creative Commons CCZero | 72 |
Creative Commons Attribution Share-Alike | 71 |
Creative Commons Non-Commercial (Any) | 49 |
Other (Attribution) | 38 |
UK Open Government Licence (OGL) | 36 |
Open Data Commons Open Database License (ODbL) | 28 |
Open Data Commons Public Domain Dedication and Licence (PDDL) | 27 |
Other (Not Open) | 26 |
Other (Open) | 25 |
Other (Public Domain) | 25 |
Open Data Commons Attribution License | 14 |
GNU Free Documentation License | 9 |
Other (Non-Commercial) | 9 |
ukcrown-withrights | 6 |
W3C | 1 |
apache | 1 |
gpl-2.0 | 1 |
gpl-3.0 | 1 |
Tabelle 4: Überblick Lizenzen auf http://datahub.io (Stand Juli 10, 2013)
6.
Conclusio und Ausblick ^
7.
Literatur ^
Auer, Sören (2011). Creating Knowledge Out of Interlinked Data. In: Proceedings of WIMS’11, May 25–27, 2011, p. 1–8.
Beer, David (2009). Power through the algorithm? Participatory web cultures and the technological unconscious. In: new media & society, 11/6, 2009, p. 985–1002.
Berners Lee, Tim (1998). Uniform Resource Identifiers (URI): Generic Syntax. In: IETF Network Working Group, Request for Comments: 2396, See also: http://www.ietf.org/rfc/rfc2396.txt, aufgerufen am 20. Februar 2013.
Berners-Lee, Tim (2009). Linked Data Design Issues. In: http://www.w3.org/DesignIssues/LinkedData.html, aufgerufen am 25. Mai 2013.
Cranford, Steve (2009). Spinning a Data Web. In: Price Waterhouse Coopers (Ed.). Technology Forecast, Spring 2009. http://www.pwc.com/us/en/technology-forecast/spring2009/index.jhtml, aufgerufen am 20. September 2013.
Dodds, Leigh; Davis, Ian (2009). MP Data SPARQL Editor. In: http://www.guardian.co.uk/open-platform/apps-mp-data-sparql-editor, visited April 20, 2012.
Graube, Markus; Pfeffer, Johannes; Ziegler, Jens; Urbas, Leon (2011). Linked Data as integrating technology for industrial data. In: 2011 Int. Conference on Network-Based Information Systems, 7–9 Sept. 2011, p. 162–167.
Haase, Kenneth (2004). Context for Semantic Metadata. In: Proceedings of MM’04, October 10–16, 2004, New York, USA. ACM.
Jain, Prateek; Hitzler, Pascal; Janowicz, Krzysztof; Venkatramani, Chitra (2013). There’s No
Money in Linked Data. In: http://knoesis.wright.edu/faculty/pascal/pub/nomoneylod.pdf, aufgerufen am 18. Dezember 2013.
Kulathuramaiyer, Narayanan; Maurer, Hermann (2009). Implications of Emerging Data Mining. In: Blumauer, Andreas; Pellegrini, Tassilo (Hrsg.). Social Semantic Web. Berlin: Springer Verlag, S. 469–484.
Latif, Atif; Us Saeed, Anwar; Höfler, Patrick; Stocker, Alexander; Wagner, Claudia (2009). The Linked Data Value Chain: A Lightweight Model for Business Engineers. In: Proceedings of I-Semantics 2009, the 5th International Conference on Semantic Systems. Graz: Journal of Universal Computer Science, p. 568–577.
Lusch, Robert F.; Vargo, Stephen L. (2006). Service-dominant logic: reactions, reflections and refinements. In: Marketing Theory, September 2006; vol. 6, 3: pp. 281–288.
Mitchell, Ian; Wilson, Mark (2012). Linked Data. Connecting and exploiting big data. Fujitsu White Paper, March 2012. http://www.fujitsu.com/uk/Images/Linked-data-connecting-and-exploiting-big-data-%28v1.0%29.pdf, aufgerufen am 12. September 2013.
Nagenborg, Michael (2009). Privacy im Social Semantic Web. In: Blumauer, Andreas; Pellegrini, Tassilo (Hrsg.). Social Semantic Web. Berlin: Springer Verlag, S. 484–506.
Pellegrini, Tassilo (2012). Semantic Metadata in the News Production Process. Achievements and Challenges. In: Lugmayr, Artur et al. (Eds.). Proceeding of the 16th International Academic MindTrek Conference 2012. ACM SIGMM, p. 125–133.
Pellegrini, Tassilo (2013). The Economics of Big Data: A Value Perspective on State of the Art and Future Trends. In: Akerkar, Rajendra (Eds.). Big Data Computing. New York: Chapman and Hall/CRC, p. 343–371.
Pellegrini, Tassilo; Ermilov, Ivan (2013). Guide and Best Practices to Licensing Interlinked Data. Public Deliverable 7.4. EU-Project LOD 2. Grant Agreement No: 257943. Siehe auch http://svn.aksw.org/lod2/WP7/D7.4/public.pdf, aufgerufen am 3. Januar 2014.
Prenafeta, Javier (2010). Protecting Copyright Through Semantic Technology. In: Publishing Research Quarterly, 26/4, pp 249–254.
Rayfield, Jem (2012). Sports Refresh: Dynamic Semantic Publishing. In: BBC Internet Blog, http://www.bbc.co.uk/blogs/bbcinternet/2012/04/sports_dynamic_semantic.html, aufgerufen am 5. Mai 2012.
Saumure, Kristie; Shiri, Ali (2008). Knowledge organization trends in library and information studies: a preliminary comparison of pre- and post-web eras. In: Journal of Information Science, 34/5, 2008, p. 651–666.
Shy, Oz (2001). The Economics of Network Industries. Cambridge: Cambridge University Press.
Sonntag, Michael (2006). Rechtsschutz für Ontologien. In: Schweighofer, Erich; Liebwald, Doris; Drachsler, Matthias; Geist, Anton (Eds.). e-Staat und e-Wirtschaft aus rechtlicher Sicht. Stuttgart: Richard Boorberg Verlag, p. 418–425.
W3C (2004). RDF – Resource Description Framework. In: http://www.w3.org/RDF/, aufgerufen am 10. Dezember 2013.
W3C (2008). SPARQL Query Language for RDF. in: http://www.w3.org/TR/rdf-sparql-query/, aufgerufen am 20. Dezember 2013.
Tassilo Pellegrini
Professor (FH), Fachhochschule St. Pölten, Department Medienwirtschaft
Matthias Corvinus Straße 15, 3100 St. Pölten, AT
Tassilo.pellegrini@fhstp.ac.at; http://www.fhstp.ac.at
- 1 Ein Gesamtüberblick der relevanten Standards findet sich unter http://www.w3.org/standards/semanticweb/, aufgerufen am 20. Dezember 2013.
- 2 Für eine differenzierte Diskussion des volkswirtschaftlichen und betriebswirtschaftlichen Wertschöpfungsbeitrages von Big Data im Allgemeinen und Linked Data im Speziellen siehe Pellegrini (2013). Eine Schematisierung der Linked Data Value Chain findet sich bei Latif et al. (2009).
- 3 Saumure/Shiri definieren Ontologien folgendermaßen: «Ontologies are being considered valuable to classifying web information in that they aid in enhancing interoperability – bringing together resources from multiple sources.» (Saumure/Shiri 2008, S. 657).
- 4 Siehe http://linkeddata.org/, aufgerufen am 26. Dezember 2013.
- 5 Einen Überblick über verfügbare Datenquellen bietet z.B. http://datahub.io, aufgerufen am 31. Dezember 2013.
- 6 Vertiefende Fallbesprechungen siehe z.B. Rayfield (2012) für die BBC oder Dodds/ Davis (2009) für guardian.co.uk.
- 7 Das Patentrecht wird an dieser Stelle ausgespart, da – zumindest nach europäischer Rechtsprechung – die genannten Assets nur indirekten Schutz in Kombination mit einer technischen Erfindung erlangen können. Ebenfalls nicht Bestandteil der Betrachtung ist das Markenrecht und das Domainrecht.
- 8 Je nach strategischem Ziel eines Linked Data Providers könnte dies eine kostengünstige (bis kostenlose) Bereitstellung von Metadaten-Assets auf Basis offener Lizenzen oder eine Hochpreisstrategie auf Basis geschlossener Lizenzmodelle bedeuten. Bildlich gesprochen könnte ein service-orientiertes Unternehmen seinen Produkt-Index im Netz veröffentlichen und anderen die Möglichkeit geben, auf dessen Basis Applikationen zu entwickeln, wie es etwa die Metadateninitiative http://schema.org (bestehend aus Google, Yahoo und Bing) bzw. der Anbieter http://geonames.org praktizieren. Der konkrete Nutzungskontext entscheidet über die zur Anwendung kommende Lizenz, die Version des Index, die Service Levels und das Bepreisungsmodell.
- 9 Ein Blick auf die Lizensierungspraxis der BBC zeigt, dass durch den kombinierten Einsatz offener und geschlossener Lizenzmodelle bestimmte Datenbestände der Öffentlichkeit für die Weiterverwendung zur Verfügung gestellt werden. So bediente sich die BBC (mit Stand Februar 2013) neben dem klassischen Urheberrecht folgender Lizenzmodelle: GNU Free Documentation Licence für Content, der aus der Wikipedia bezogen wird, Creative Commons Public Domain and Attribution-NonCommercial-ShareAlike für Content, der aus der MusicBrainz Datenbank bezogen wird, und Attribution-NonCommercial-ShareAlike 3.0 Unported für die Besprechungen der Musikalben der BBC. Zusätzlich wird die Verwendung der Datenschnittstellen über Geschäftsbedingungen geregelt, die eine uneingeschränkte, nichtkommerzielle Nutzung der BBC Music Beta-Daten erlauben. Siehe http://backstage.bbc.co.uk/archives/2005/01/terms_of_use.html, aufgerufen am 20. Februar 2013.
- 10 Siehe http://creativecommons.org, aufgerufen am 5. Dezember 2013.
- 11 Siehe http://www.opendatacommons.org, aufgerufen am 5. Dezember 2013.
- 12 Siehe http://www.w3.org/community/odrl/, aufgerufen am 2. Januar 2014.
- 13 Siehe http://dev.iptc.org/RightsML, aufgerufen am 2. Januar 2014.
- 14 Ein Überblick über existierende Use Cases aus der Nachrichtenbranche findet sich unter http://dev.iptc.org/RightsML-Use-Cases, aufgerufen am 2. Januar 2014.
- 15 Siehe http://www.w3.org/Submission/ccREL/, aufgerufen am 2. Januar 2014.
- 16 Eine vergleichbare Erhebung und kritische Reflexion findet sich bei auch bei Jain et al. (2013).