Geonovum heeft jarenlang de standaardisatie en toegankelijkheid van geo-informatie in de publieke sector van Nederland gestimuleerd en inmiddels kunnen we daar de vruchten van plukken in de vorm van heel veel beschikbare geo-data, steeds vaker met een open gebruikslicentie. De geo-data is veelal beschikbaar in een gestandaardiseerd, gestructureerd formaat (GML) en via gestandaardiseerde web services.
We hebben vooral sinds het afgelopen jaar gemerkt dat het Semantic Web momentum begint te krijgen. In de Linked Data pilot is door een groot aantal partijen veel ervaring opgedaan met linked data standaarden. Hoewel er veel geo-data beschikbaar is, blijkt dit niet zomaar te betekenen dat dit ook binnen het Semantic Web gebruikt wordt. Er moeten nog stappen gezet worden om geo-data naar het Semantic Web te brengen en daar ten volle te kunnen benutten. Doel van dit pilotproject is om te ontdekken welke stappen dit zijn en hoe die het beste gezet kunnen worden.
Tijdens de PiLOD 2.0 kunnen verschillende vragen aan bod komen. Deze worden hier elk in een sectie uitgewerkt. Werkgroepleden worden uitgenodigd commentaar te leveren / toevoegingen te doen!
De onderwerpen hieronder vormen een vrij grote lijst; tijdens de pilot kan hierin een selectie worden gemaakt of kunnen andere vragen naar boven komen. Een deel van de vragen kan aan bod komen binnen Case 1 of vanuit een samenwerking met Case 1. Bijvoorbeeld vraag 1 moet een antwoord krijgen voordat geo-informatie in case 1 wordt ontsloten als linked data. Vraag 2 kan geheel binnen Case 1 aan bod komen.
Hiervoor bestaan verschillende vocabularia, zoals W3C Basic Geo , INSPIRE Core Location Vocabulary, NeoGEO, en OGC GeoSPARQL. Een inventarisatie en selecteren van een van de standaarden zijn nodig. Of zouden we aanbevelingen voor het verbeteren van deze standaarden kunnen doen?
Deze onderzoeksvraag valt voor een groot deel samen met de missie van de Geospatial Semantic Web Community Group van het W3C. Het zou leuk zijn onze bevindingen met die groep te delen.
Dit moet natuurlijk gebeuren op basis van de concept URI strategie uit de LOD pilot fase 1. Dit kan in case 1 ipv case 3 gebeuren.
Hiervoor hebben we (Linda van den Brink, Wilko Quak en Paul Janssen) in de Linked Open Data pilot, fase 1, al een experimentele conversie geïmplementeerd en beschreven. Dit ging om een generieke conversie van GML naar RDF. Deze zou moeten worden uitgebreid met:
Van het automatisch genereren van RDF op basis van GML kun je je echter afvragen of dat wenselijk is. Zo veel systemen zijn er toch niet die GML produceren? Ja, er is wel wat, maar dat komt voornamelijk door wetgeving, en niet doordat GML zo'n succesvolle standaard is. Het is wellicht zinvoller om RDF direct uit de brondata te publiceren, dus niet volgend op GML, maar er naast. Dan worden de beperkingen van GML omzeild en dan worden meteen de te verwachten prestatieproblemen vermeden. Maar ook dit zou eens in de praktijk getest kunnen worden, bijvoorbeeld door een geschikte dataset in een RDBMS te stoppen en daar dan een WFS en een SPARQL-endpoint op te zetten.
In de Linked Open Data pilot is hier ervaring mee opgedaan en bleek dit geautomatiseerd te kunnen (op basis van een implementatie van OGC document 11-063r6 ), aangevuld met een door ons ontwikkelde methode om de UML te annoteren met een mapping naar aan bestaande linked data ontologieën.
Echter, hier zijn nog veel vragen bij. Automatische conversie van semantiek (van GML-applicatieschema's naar RDF-vocabularia) is mogelijk, maar je kan je afvragen waarom je dat zou willen en wat de voor- en nadelen zijn. Met automatische conversie zijn Linda van den Brink,Wilko Quak en Paul Janssen in PiLOD 1 bezig geweest. Zie artikel in het boek van vorig jaar: http://www.pilod.nl/wiki/Boek/BrinkEtAl-GML2RDF. We zijn nu bezig aan een vervolgartikel dat wat uitgebreider is en waarin we met name de automatische omzetting van UML naar RDFS/OWL uitbreiden. De omzetting doen we met ShapeChange waarin een vrij eenvoudige mapping van UML naar RDFS/OWL wordt gedaan. Deze lijkt sterk op wat nu aan regels voor de omzetting van UML modellen naar OWL ontologieën wordt beschreven in ISO 19150-2 (DIS). We zien zelf een drietal issues met UML > OWL mapping.
Voor automatische omzetting van semantiek is een voor de hand liggende reden dat er al zo veel modellen zijn. Het zou heel jammer zijn als alle applicatieschema's die we nu hebben, nationaal en internationaal, niet meer gebruikt kunnen worden. Maar het gevaar ligt op de loer dat modellering via UML en GML dermate beperkend is dat een automatische conversie van zo'n model naar RDF een model zou opleveren dat geen goed recht doet aan de werkelijkheid. Het kan zelfs beter zijn terug te gaan naar de werkelijkheid en dan met de verbeterde middelen (RDFS/OWL) een beter model te maken. En daarbij kunnen de bestaande UML-klassediagrammen van groot nut zijn. Daar hebben de domeinexperts immers al veel over nagedacht en gesteggeld. Zou het niet een leuke test zijn om een GML-applicatieschema te kiezen (eentje van INSPIRE bijvoorbeeld) en die zowel automatisch als met de hand om te zetten naar een RDF-vocabularium, en dan te kijken wat de verschillen zijn, en wat de relatieve bruikbaarheid is?
Geo-data is goed voorzien van allerlei gestandaardiseerde metadata, bijvoorbeeld eigenaar van de dataset, creatiedatum, en gebruiksbeperkingen, maar ook nauwkeurigheid van coördinaten. Voor Linked Data zijn er bijvoorbeeld VoID en DCAT. Onderzocht kan worden of bestaande vocabularia voor metadata geschikt zijn om geo-linked-datasets te metadateren, en of er misschien uitbreidingen voor nodig zijn.
De Ordnance Survey linked data biedt een mooi voorbeeld.
subvraag hierbij is wat een handige aanpak is om tot een reductie van het datavolume te komen / om te gaan met het vaak grote datavolume van geodata. Dit speelt in nog grotere mate bij sensordata.
In de PiLOD case 3 zou een SPARQL endpoint gemaakt kunnen worden met geodata.
Een mogelijkheid is een samenwerking met het CERISE-SG project, een project over 'smart grids' waarin het de bedoeling is om geodata en energiedata te combineren. Geodan is verantwoordelijk voor het bouwen van een prototype van een datadienst voor dat doeleinde. Het idee is nu om dat een SPARQL-endpoint te maken en de te publiceren data dus volgens de principes van Linked Data te behandelen. Simpel gezegd gaat het om meterstanden en daaraan gekoppelde gegevens, waaronder locatie. De meetapparaten (energiemeters) zijn als sensoren te beschouwen, dus we (CERISE deelnemers) zien flinke overlap met de PiLOD en willen graag als CERISE-SG meedoen.
Maar ook in de Erfgoed en Locatie pilot wordt al geexperimenteerd met GeoSPARQL endpoints: http://erfgoedenlocatie.nl/2013/11/geosparql-demo-erfgoed-locatie/
Zo mogelijk geautomatiseerd, (bijvoorbeeld) op basis van locatie.
Experimenteren met OGC standaard GeoSPARQL. Deze standaard uit 2012 is nog weinig toegepast. Het is interessant om hier ervaring mee op te doen. Is dit een standaard die waardevol is voor linked data toepassingen? Zijn er verbeteringen voor de standaard aan te dragen?
Resultaat zou kunnen zijn:
Resource Description Framework (RDF) is een standaardmodel voor gegevensuitwisseling op het web. RDF heeft functies die het samenvoegen van gegevens vergemakkelijken, zelfs als de onderliggende schema's verschillen, en het ondersteunt specifiek de evolutie van schema's in de loop van de tijd zonder dat alle gegevensgebruikers moeten worden gewijzigd.
De activiteiten van Platform Linked Data Nederland (PLDN) worden mede mogelijk gemaakt dankzij het Kadaster, TNO, Big Data Value Center (BDVC), ECP, Forum Standaardisatie, Kennisnet, SLO, Waternet, Taxonic, MarkLogic, Triply, Franz Inc., SemmTech, Rijksdienst voor het Cultureel Erfgoed (RCE), Beeld en Geluid, EuroSDR, de KVK en ArchiXL
Wilt u op de hoogte gehouden worden van nieuws en ontwikkelingen binnen PLDN?
Schrijf u dan in voor de nieuwsbrief