Boek/Verhelst

Semantiek en Linked DataLinked Data is een internettechnologie waarmee je gestructureerde gegevens op een uniforme manier kunt beschrijven, modelleren, opslaan, publiceren en onderling kunt koppelen via het internet met behulp van RDF-gebaseerde open standaarden en URI's (bijv. W3C-aanbevelingen en vocabulaires).

 

Auteurs

Lieke Verhelst MSc (Linked Data FactoryBij de Factory kun je terecht voor advies en training, maar ook voor een kant en klare maatwerkoplossing. Zo maken wij de semantische modellen die nodig zijn voor Linked Data, en kunnen we de triple store (database) installeren en configureren.)



De waarde van dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat, ook Linked DataLinked Data is een internettechnologie waarmee je gestructureerde gegevens op een uniforme manier kunt beschrijven, modelleren, opslaan, publiceren en onderling kunt koppelen via het internet met behulp van RDF-gebaseerde open standaarden en URI's (bijv. W3C-aanbevelingen en vocabulaires)., wordt in grote mate bepaald door de aanwezige beschrijvende informatie. Bij Linked Data is deze beschrijving vastgelegd in een semantisch model of vocabulair. Het vastleggen van de betekenis van data door semantische modellen gaat beter dan bij tabulaire dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Dit komt doordat een semantisch model niet beperkt is, maar juist oneindig. Iedereen kan een semantisch model maken waarmee een onderwerp wordt beschreven. Soms worden daardoor onderwerpen door meerdere partijen vastgelegd. Dit is geen probleem omdat volgens de principes van het Semantisch Web elke partij het onderwerp vanuit zijn eigen context mag beschrijven.

 

Neelie Kroes, Vice-President van de European Commissie en Eurocommissaris verantwoordelijk voor de Digitale Agenda, zegt het frequent: ‘Open Data is de olie van het digitale tijdperk’ (Kroes, N. 2012, 2011). De waarde van data is veelbelovend, enorm, en groeiend. Maar we moeten hier wel een kanttekening plaatsen. De kanttekening kunnen we illustreren met de onderstaande tabel. Wat is de waarde van de data in deze tabel?

 

33
Amsterdam
Johannes
Janssen
X
428
Oegstgeest
Peter
Michaels
-
5
Kerkrade
Michiel
Vanberghe
-

Tabel 1: Tabel met alleen dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat

 

Inderdaad. Niet veel. Wat betekenen de getallen? Die namen..wat voor mensen zijn dat? En dat kruisje..dat zal wel iets van ‘aanwezig’ betekenen zeker? Wat hier mist is de omschrijving van wat de gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat in de tabel betekenen. Zonder de omschrijving is de tabel abacadabra, en dus zonder waarde. De omschrijving van gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat staat, onder andere, in de kolomdefinitie. Als we die hebben, weten we dan meer?

 

aantal
plaats
voornaam
achternaam
betaald
33
Amsterdam
Johannes
Janssen
X
428
Oegstgeest
Peter
Michaels
-
5
Kerkrade
Michiel
Vanberghe
-

Tabel 2: Tabel met kolomdefinitie en dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat

 

Door de toevoeging van de kolomnamen zou je kunnen concluderen dat het databestand een registratie van een vogeltelling bevat, gedaan op een bepaalde plaats, door de leden van een vereniging. Maar je zou ook kunnen denken dat het bij het aantal gaat om verkeersovertredingen, en dat de plaats de geboorteplaats is van de personen, en dat ze wel of niet de bekeuring hebben betaald. Het helpt als er een beschrijving is van het databestand. Bijvoorbeeld: wanneer het is gemaakt, en op welke manier, door wie. Als een dergelijke beschrijving er niet is, kunnen we afgaan op onze eigen inzicht. Dit wordt bepaald door onze ervaring, opleiding, leefwijze..dus onze context. Iemand die een rijbewijs heeft (en dus boven de 18 is) weet uit ervaring dat 428 verkeersovertredingen een beetje veel is, en 5 vogels bij een vogeltelling weer erg weinig. Aan de andere kant..we weten niet wat de totale periode is waarin geteld zou zijn, dus wellicht is het aantal verkeersovertredingen best mogelijk. Met andere woorden: data krijgt waarde door een goede beschrijving van de betekenis. Daarbij is ook de context van de gebruiker van belang, en de context van de data zelf.

 

Bij tabulaire data wordt de betekenis vastgelegd door de kolomdefinities, de tabelnamen en de relaties tussen de tabellen. En als er een beschrijving is van het dataset in zijn geheel dan wordt dit vastgelegd in de metadata.

Een ander woord voor ‘betekenis’ is semantiek. Het woord ‘semantiek’ is sterk verbonden met Linked DataLinked Data is een internettechnologie waarmee je gestructureerde gegevens op een uniforme manier kunt beschrijven, modelleren, opslaan, publiceren en onderling kunt koppelen via het internet met behulp van RDF-gebaseerde open standaarden en URI's (bijv. W3C-aanbevelingen en vocabulaires).. Tim Berners-Lee schreef zijn gedachten over het Semantisch Web al op in 1998 (Berners-Lee, 1998).

 

In de volgende paragraaf wordt beschreven wat de relatie is tussen het Semantisch Web en Linked DataLinked Data is een internettechnologie waarmee je gestructureerde gegevens op een uniforme manier kunt beschrijven, modelleren, opslaan, publiceren en onderling kunt koppelen via het internet met behulp van RDF-gebaseerde open standaarden en URI's (bijv. W3C-aanbevelingen en vocabulaires).. Het geeft ook antwoord op de vraag waar de betekenis van de gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat in Linked Data wordt vastgelegd.

 

Het Semantisch Web

Tim Berners-Lee is de uitvinder van het World Wide WebHet wereldwijde web (www) ook wel met de Engelse term 'world wide web' aangeduid, maar meestal kortweg het web, houdt in:

  • een aantal technische afspraken voor het wereldwijd over het internet aanbieden en verbinden van allerhande documenten en computertoepassingen;
  • de verzameling documenten en toepassingen die wereldwijd volgens dit systeem over het internet worden aangeboden.. Hij bedacht in 1989 het mechanisme van het koppelen van webdocumenten via hyperlinks. Toen het web zich gedurende de jaren 90 van de vorige eeuw ging ontwikkelen tot een web van documenten noteerde hij zijn visie over het Semantisch Web in zijn webnotitieblok ‘Design Issues’. Dit was in 1998. Hij realiseerde zich dat het web van documenten vooral goed gebruikt kon worden door mensen. Hij stelde zich de vraag hoe het web zich zou moeten ontwikkelen wilde het ook ‘leesbaar’ zijn voor machines. Als dat namelijk het geval zou zijn, zou het web kunnen dienen als een soort informatierobot die allerlei taken voor ons zou kunnen uitvoeren. Het antwoord op die vraag was dat het web zich zou moeten ontwikkelen tot een web met beschrijvingen van concepten die door logische regels met elkaar in verbinding staan. Hiermee legde hij de blauwdruk voor het Semantisch Web.

 

Het Semantisch Web is een netwerk van conceptuele beschrijvingen die de betekenis van ‘dingen’ vastleggen. Dit netwerk bestaat uit een grote hoeveelheid van sets van drie elementen, de zogenaamde triples. Elk triple bestaat uit een subject (onderwerp), predicate (eigenschap) en object (lijdend voorwerp of waarde).

 


C4-fig1.jpg

 

Bijvoorbeeld: <een schilder> <schilderde> <een schilderij>. Dit model heeft een richting, te zien aan de pijl in bovenstaande afbeelding. Je kunt ook zeggen: <het schilderij> <is geschilderd door> <een schilder>. De pijl staat dan de andere kant op en de betekenis van het predicate is anders.

 

Om de betekenis van iets vast te leggen heb je natuurlijk niet genoeg aan één triple. Je hebt er een heleboel nodig en zo ontstaat een web van triples die gezamenlijk de betekenis van iets vastleggen. Net zoals bij het web van documenten publiceert iedere deelnemende partij een deel van het gehele semantische web (figuur 2).

 


 

C4-fig2.jpg

 

Het voorbeeld van de schilder en het schilderij zou bijvoorbeeld door een museum kunnen zijn gemaakt. Een andere partij kan hieraan zijn eigen semantische schema koppelen. De stad waarin het museum staat zou bijvoorbeeld de beschrijving van het functioneren van een museum in de stad kunnen koppelen aan figuur 2.

 


 

Figuur 3: De semantische beschrijving van het museum gezien vanuit de context van de stad

 

Het koppelen gaat via een of meerdere predicate beschrijvingen (het pijltje in de triple afbeelding). Zo beschrijft een museum het begrip ‘museum’ vanuit de context van de culturele inhoud, en de stad beschrijft hetzelfde begrip vanuit de context van de sociale functie van het gebouw. Hoe meer partijen het begrip ‘museum’ semantisch gaan beschrijven, des te waardevoller wordt de omschrijving. Figuur 2 en 3 samenvoegend krijg je dan de afbeelding in figuur 4.

 


 

Figuur 4: De twee contexten rond het begrip 'museum' samengevoegd

 

Het Semantisch Web is dus een op web technologie gebaseerd netwerk dat de semantiek van dingen vastlegt. De onderdelen van een triple bestaan op het web via HTTP webadressen (URL'sUniform Resource Locator (URL)). Elk onderdeel heeft een uniek webadres. Dit netwerk kan heel goed gebruikt worden om data van betekenis te voorzien. Dat is het principe van Linked DataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat: de data worden gekoppeld aan de begrippen in het semantisch web. Wat is data eigenlijk? Data zijn gegevensWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat die werkelijk bestaan. Dus in het voorbeeld van het schilderij is dat ‘de Mona Lisa’. De schilder is ‘Leonardo da Vinci’. Het conceptuele triple wordt voorzien van ingekapselde feiten, en zo ontstaat Linked DataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat:

 

<een schilder>

<Leonardo da Vinci>

<schilderde>

<een schilderij>

<de Mona Lisa>

 

Hoe je zelf een semantisch model maakt om je data te beschrijven wordt uitgelegd in de volgende paragraaf.

 

Het maken van een semantisch model

Een semantisch model zoals bijvoorbeeld figuur 2 wordt vastgelegd in een machineleesbaar formaat. Dit model zou je in een tekst editor (zoals bijvoorbeeld windows notepad) kunnen maken, maar dat is wel een monnikenwerk. Het is makkelijker om een ontology editor te gebruiken. Hiervan zijn er vele in omloop. Sommige als betaald product, andere als open source. De in de pilot meest gebruikte commerciële editor is TopBraid Composer (www.topquadrant.com). Een goed alternatief is de open source editor Protégé (http://protege.stanford.edu).

 

Het semantische model maak je door subjecten en objecten vast te leggen, en deze te koppelen via propertiesAls in OWL properties of RDFS properties. (predicates). Een object kan twee verschillende gedaanten hebben. Het kan zelf weer een object zijn, of het kan een waarde hebben. In het eerste geval wordt de koppeling gelegd door een object property, en in het tweede geval van een datatype property. Een datatype property kan een tekstwaarde bevatten, of een getal, datum, boolean waarde etc. In de figuren 2, 3 en 4 zijn de pijlen die wijzen naar ovalen object propertiesAls in OWL properties of RDFS properties., en de pijlen die wijzen naar een vierkant zijn datatype propertiesAls in OWL properties of RDFS properties..

 

In de volgende afbeeldingen zal stap voor stap getoond worden hoe figuur 2 is gemodelleerd in de ontology editor Topbraid Composer Free edition (TBC).

 


Stap 1

Open TBC en je ziet een leeg scherm met vakken zoals figuur 5. Links is het vak waar de objecten en subjecten inkomen (classes) en rechts worden de predicates (propertiesAls in OWL properties of RDFS properties.) genoteerd.

 

 

Figuur 5: Het openingsscherm van Topbraid Composer

 

Stap 2

Eerst moeten een leeg bestand aangemaakt worden via File..New..RDF/OWLDe Web Ontology Language (OWL) is de standaard van W3C voor het definiëren van ontologieën voor het wereldwijd web. Deze ontologieën worden door de formele semantiek gekenmerkt, gebaseerd op de standaard RDF voor objecten van W3C. file. Noem het bestand ‘museum’.


 

Figuur 6: Maak een leeg RDF/OWL bestand

 


 

Figuur 7: Het in Topbraid Composer geladen basisschema RDF/OWL

 

In het lege scherm is nu het basisschema geladen waarin we de classes en propertiesAls in OWL properties of RDFS properties. kunnen vastleggen.

 

Stap 3:

Maak de classes aan. Dit doe je door op het icon te klikken. Ga op owl:Thing staan en maak alle classes aan.

 


 

Figuur 8: Het aanmaken van de classes

 

Stap 4

Maak alle propertiesAls in OWL properties of RDFS properties. aan. Maak hierbij goed onderscheid tussen de datatype propertiesAls in OWL properties of RDFS properties. en de object propertiesAls in OWL properties of RDFS properties..

 

 

Figuur 9: Het maken van een datatype property
 
Figuur 10: Het maken van een object property.

 

 

In het semantische model van figuur 2 bestaat een pijl met als waarde ‘is een’. Dit geeft de klasse-subklasse relatie aan: een ‘Kwast’ is een subklasse van ‘Instrument’. Subclasses staan ingesprongen onder de klasses. In TBC kun je dit realiseren door de klasse ‘Kwast’ met de muis onder ‘Instrument’ te slepen.

 

 

Figuur 11: Klasse ‘Instrument’ en subklasse ‘Kwast’

 

Als alles gedefinieerd is ziet je scherm er zo uit:

 


 

C4-fig12.jpg

 

Het semantische model is nu af (www.linkeddatafactory.nl/voc/museum.owl). Dit is de meest eenvoudige vorm. Het is mogelijk het model te vullen met logische regels (als..dan, NOT, AND, OR) die de beschrijving van de concepten nog meer bepalen, maar meer uitleg hierover valt buiten de scope van dit boek.

Door het model te vullen met data bepaal je welke klassen welke propertiesAls in OWL properties of RDFS properties. krijgen. Hoe het vullen van het model met data in zijn werk gaat wordt beschreven in het hoofdstuk over LOD Refine.

 

Een ander woord voor een semantisch model is een vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken.. Omdat er behoefte was aan een standaardisatie in vocabulaires zijn er door specialistische organisaties, zoals de W3C en universiteiten, al een groot aantal vocabulaires gemaakt. Een aantal van de vocabulaires die in de LOD pilot zijn gebruikt zijn opgenomen in Tabel 2.

 

 

eigenschappen naam vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken.                beschrijving van  webadres

Dublin CoreDe Dublin Core (DC) is een standaard voor het beschrijven van content op het internet. Dit omvat zowel geschreven teksten op webpagina's als content in XML-formaat. Ook video's en geluidsfragmenten kunnen met de Dublin Core beschreven worden.                                                ‘Basis metadata’ voor simple en algemene beschrijvingen van informatiebronnen                                                                      http://dublincore.org/

FOAFFOAF (Friend of a Friend) is ontwikkeld als een machine-leesbare ontologie, die personen beschrijft, de relaties met andere personen en voorwerpen, en de interacties hiervan. (friend of a friend)                          Sociale netwerken van vriendschap en menselijke samenwerkingsvormen, zakelijke netwerken en informatienetwerken                                http://xmlns.com/foaf/spec/

WGS84                                                        Geografische lengte- en breedtegraad en andere geografisch gerelateerde informatie.WGS84 is gebruikt als referentie.                             http://www.w3.org/2003/01/geo/

Schema.org                                                Oorspronkelijk ontworpen om content van zoekmachines semantisch te annoterenDenk aan annoteren van web pagina's, annoteren van wetgeving, etc. Zie ook Aanpak_Basisregistraties. Bevat daarom veel onderwerpen die vaak gezocht worden zoals, muziek, kunst, afbeeldingen, gebeurtenissen, recepten, organisaties en mensen                                                                      http://schema.org/docs/schemas.html

 

Tabel 2: Enkele vocabulaires die als een informele standaard worden gebruikt

 

De bestaande vocabulaires kun je gebruiken om Linked Data mee te maken. Je kunt ze ook aanvullen met elementen uit een vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken. dat je zelf hebt ontworpen. Gebruik hiervoor de ‘import’ functie (zie Figuur 12, het tabblad ‘imports’ onderaan in het midden van het scherm).

 

De waarde van semantiek

Data is de nieuwe olie van deze tijd mits de betekenis goed is beschreven en er rekening wordt gehouden met de context van de gebruiker en de data zelf. Dit geldt ook voor Linked DataLinked Data is een internettechnologie waarmee je gestructureerde gegevens op een uniforme manier kunt beschrijven, modelleren, opslaan, publiceren en onderling kunt koppelen via het internet met behulp van RDF-gebaseerde open standaarden en URI's (bijv. W3C-aanbevelingen en vocabulaires).!

 

Het beschrijven van de betekenis en de context van data via semantische modellen gaat beter dan bij tabulaire dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Dit komt doordat een semantisch model niet beperkt is, maar juist oneindig. Iedereen kan een semantisch model maken waarmee een onderwerp wordt beschreven. Soms worden daardoor onderwerpen door meerdere partijen vastgelegd. Dit is geen probleem omdat elke partij het onderwerp vanuit zijn eigen context kan beschrijven. Mochten er zaken werkelijk dubbel zijn beschreven, dan kunnen partijen de identieke relatie tussen de onderwerpen vastleggen via de property ‘sameAs’.

 

We kunnen onderwerpen die al beschreven zijn in het Web van Documenten omzetten naar het Semantisch Web. Dat gebeurt bijvoorbeeld al bij Wikipedia. De onderwerpen die in Wikipedia staan zijn semantische beschreven en de Wikipedia pagina’s zijn met behulp van deze beschrijvingen omgezet naar Linked DataLinked Data is een internettechnologie waarmee je gestructureerde gegevens op een uniforme manier kunt beschrijven, modelleren, opslaan, publiceren en onderling kunt koppelen via het internet met behulp van RDF-gebaseerde open standaarden en URI's (bijv. W3C-aanbevelingen en vocabulaires).. Deze Linked Data versie van Wikipedia heet DBpediaDBpedia is a crowd-sourced community effort to extract structured information from Wikipedia and make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link the different data sets on the Web to Wikipedia data. We hope that this work will make it easier for the huge amount of information in Wikipedia to be used in some new interesting ways. Furthermore, it might inspire new mechanisms for navigating, linking, and improving the encyclopedia itself.. Dit is een goede bron om te gebruiken wanneer je je eigen Linked Data wilt verrijken met context informatie. In het voorbeeld van het museum vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken. is DBpediaDBpedia is a crowd-sourced community effort to extract structured information from Wikipedia and make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link the different data sets on the Web to Wikipedia data. We hope that this work will make it easier for the huge amount of information in Wikipedia to be used in some new interesting ways. Furthermore, it might inspire new mechanisms for navigating, linking, and improving the encyclopedia itself. te koppelen aan de ‘schilder’ ‘Leonardo da Vinci’ via de sameAs relatie:

 


 

Figuur 13: Het semantisch koppelen van identieke begrippen

 

Via deze koppeling kun je vervolgens alle gerelateerde informatie over Leonardo Da Vinci uit DBpediaDBpedia is a crowd-sourced community effort to extract structured information from Wikipedia and make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link the different data sets on the Web to Wikipedia data. We hope that this work will make it easier for the huge amount of information in Wikipedia to be used in some new interesting ways. Furthermore, it might inspire new mechanisms for navigating, linking, and improving the encyclopedia itself. ophalen!

Er is nog een andere manier om Linked Data te verrijken. Die manier heet inference (gevolgtrekking). Inference is gebaseerd op de logicaZie ook: https://ocw.tudelft.nl/courses/redeneren-en-logica/subjects/propositielogica/ (online cursus propositie logica) en https://ocw.tudelft.nl/courses/redeneren-en-logica/subjects/predicatenlogica/ (online cursus predicaten logica) van de TU Delft over dit onderwerp. die in de vocabulaires is opgenomen. Via deze logische regels worden de feiten die in de Linked Data zijn vastgelegd (feiten zoals: ‘Leonardo da Vinci schilderde de Mona Lisa’) geëvalueerd. Er worden overeenkomstige conclusies getrokken, die weer tot nieuwe feiten leiden. Deze nieuwe feiten zijn op zichzelf weer een bron voor inference, waardoor een vliegwieleffect optreedt.

 

Conclusie

Om data werkelijk de waarde te geven die het in potentie heeft moet het voorzien zijn van de juiste betekenisbeschijvingen. Bij tabulaire data is dit geregeld via metadata, kolombeschrijvingen, tabelnamen en -relaties.

 

Bij Linked Data wordt betekenis vastgelegd via semantische modellen. Het maken van kwalitatief goede semantische modellen is specialistenwerk. Met behulp van dergelijke vocabulaires is het mogelijk om reeds gepubliceerde Linked Data te verrijken via inference en links naar andere bronnen.

 

Referenties

 

Kroes, N (2012) ‘From Crisis of Trust to Open Governing’, speech, Bratislava, 5 March 2012. http://europa.eu/rapid/press-release_SPEECH-12-149_en.htm

Kroes, N (2011) ‘Data is the new gold’, speech, Brussel, 12 December 2011 http://europa.eu/rapid/press-release_SPEECH-11-872_en.htm

Berners-Lee, T (1998)’Semantic Web Road map’ onderdeel van ‘Design Issues, Architectural and philosophical points’, Tim Berners-Lee, webpagina http://www.w3.org/DesignIssues/Semantic.html

 

Verklarende woordenlijst

  • Context - samenhang: het woord ontleent zijn betekenis aan de context aan het overige deel van de zin (bron: van Dale).
  • Inference: het via logische regels die in een vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken. zijn opgeslagen afleiden van nieuwe feiten.
  • Metadata: dossier/logboek van een databestand (bron: van Dale).
  • Vocabulaire: semantisch model