Als hoofdactiviteit in case 3 willen we een prototype opzetten met verschillende datasets die iets te maken hebben met erfgoed en / of met locatie. We besteden aandacht aan het opnemen van metadata voor deze datasets (DCAT, VoID). Gaandeweg doen we ervaring op met het publiceren van linked geodata en met LD vocabulaires voor locatie, in het bijzonder GeoSPARQL (inhoudelijk, technisch, en ondersteuning door tools).
We hebben een keuze gemaakt uit datasets die al als linked data beschikbaar zijn, of datasets waarvan de bronhouder zelf al de intentie en resources heeft om deze om te zetten naar linked data. Als linked data sets hebben we gekozen:
Het prototype dat wordt gerealiseerd combineert archeologische monumentendata van de Rijksdienst Cultureel Erfgoed (RCE) met peilbuis-sensordata verkregen via Waternet. Wellicht wordt ook RCE beeldbank data gegeorefereerd (via BAG geocodeerservice) en meegenomen in dit prototype. We gaan kijken of we (al dan niet met federated queries) de data uit verschillende endpoints kunnen combineren en ontsluiten via een website. Door het combineren kun je dan de vraag beantwoorden welke archeologische monumenten bedreigd worden door wisselende grondwaterstanden.
Tussen de geo-datasets en erfgoed linked data worden mogelijk links aangebracht (geautomatiseerd, bijvoorbeeld op basis van locatie). Of zijn deze links niet nodig omdat de locatie-component met GeoSPARQL benut kan worden? Daar gaan we achterkomen.
Hoe publiceren:
Een ambitie, die we op dit moment nog niet, maar later misschien wel realiseren is om de data niet te kopiëren in één end point maar juist op verschillende end points laten staan (of deze voor zover nodig inrichten) zodat we ervaring op kunnen doen met federated queries. Een meerwaarde van linked data is het niet meer hoeven kopiëren van elkaars data om slimme dingen te kunnen doen met combinaties van data. Het is nog wel de vraag of federated queries een goede optie zijn. Hoe verhoudt zich dit bijvoorbeeld met performance optimalisatie voor ruimtelijke vragen?
Federated queries zijn mogelijk vanaf versie 1.1 van SPARQL, zie http://www.w3.org/TR/sparql11-federated-query/. Het maakt het mogelijk in een enkele query verschillende SPARQL-endpoints te bevragen. Dat is op zich al mooi, maar het zou helemaal een feest zijn als we bij dat soort gedistribueerde queries ook topologische relaties kunnen gebruiken, bijvoorbeeld de relaties die in GeoSPARQL zijn gedefinieerd. Dan zou je vragen kunnen stellen als "geef mij de locaties van alle bomen die op archeologische vindplaats X staan", als de bomendataset en de archeologiedataset verschillende SPARQL endpoints hebben.
In de Erfgoed en Locatie pilot (externe pilot van stichting DEN) wordt al geëxperimenteerd met GeoSPARQL endpoints: http://erfgoedenlocatie.nl/2013/11/geosparql-demo-erfgoed-locatie/
1a. Metadata beschrijvingen over de gehele sets maken (Rein, Han)
1b. Vocabulaires onderzoeken
1c. Strategie(n) onderzoeken tav (dynamische) grootschalige sensor data ontsluiting (Arnoud, Matthijs)
2.a Onderzoek naar mogelijkheden/beperkingen bij keuze voor Pilod platform
2b. n-tripples maken voor alle peilbuizen in alle lagen (Arnoud iom Rein)
3. Gecombineerde queries/federated queries (case 3)
4. Combinaties met andere datasets (indien makkelijk en tijd toestaat)
Geo-data is goed voorzien van allerlei gestandaardiseerde metadata, bijvoorbeeld eigenaar van de dataset, creatiedatum, en gebruiksbeperkingen, maar ook nauwkeurigheid van coördinaten (ISO19115). Deze metadata wordt opgenomen in het Nationaal Georegister (NGR). Metadata is een belangrijk onderwerp, want het is nodig om datasets goed van metadata te voorzien zodat ze vindbaar zijn en mensen snel kunnen beoordelen of ze te gebruiken zijn en hoe.
Voor Linked Data zijn er bijvoorbeeld de metadata vocabulaires VoID en DCAT. DCAT wordt gebruikt in data.overheid.nl. Onderzocht kan worden of deze bestaande vocabularia voor metadata geschikt zijn om geo-linked-datasets te metadateren, en of er misschien uitbreidingen voor nodig zijn.
Tijdens het inrichten van het prototype willen we ervaring opdoen met het metadateren van linked geo-datasets. Dit willen we doen door de voor het prototype geselecteerde erfgoed linked data sets te beschrijven met metadata. Hierbij wordt gebruik gemaakt van de in het NGR gehanteerde metadatastandaard en DCAT en VoID en deze worden vervolgens met elkaar vergeleken.
Een mogelijke uitkomst zou kunnen zijn dat de metadata velden in NGR wat uitgebreid moeten worden om er ook linked data sets in op te kunnen nemen; maar ook bijvoorbeeld een keuze tussen DCAT en VoID, en uitbreiding hiervan om geo-aspecten van linked datasets te kunnen beschrijven.
Onze ervaringen met metadata zouden we ook naar de internationale community kunnen rapporteren (nog niet bedacht waar dan).
Hoe neem je locatie-informatie (geometrie, coördinaten) het beste op in RDF? En welke toevoegingen aan Linked Data standaarden zijn er eventueel nodig voor het goed kunnen opnemen en benutten van locatie-informatie als linked data? Dit willen we door te werken aan en met het prototype ontdekken.
Voor het opnemen van geo-informatie in RDF bestaan verschillende vocabularia, zoals W3C Basic Geo, INSPIRE Core Location Vocabulary, NeoGEO, en OGC GeoSPARQL. Een inventarisatie en selecteren van een van de standaarden zijn nodig. Misschien zouden we ook aanbevelingen voor het verbeteren van deze standaarden kunnen doen.
Deze onderzoeksvraag valt voor een groot deel samen met de missie van de Geospatial Semantic Web Community Group van het W3C. Het is de intentie om onze bevindingen met die groep te delen.
Ook komen er wellicht wijzigingsvoorstellen voor de linked data standaarden van W3C en/of OGC hieruit voort.
Speciale aandacht voor deze standaard. Met behulp van het prototype kunnen we gaan ervaren hoe goed GeoSPARQL wordt ondersteund. We bedenken zoekvragen die door het combineren van de datasets van het prototype beantwoord kunnen worden en proberen die te antwoorden met GeoSPARQL. Op deze wijze doen we experimenteel kennis op over deze standaard, zowel inhoudelijk als technisch.
Deze standaard uit 2012 is nog weinig toegepast. Het is interessant om hier ervaring mee op te doen. Is dit een standaard die waardevol is voor linked data toepassingen? Zijn er verbeteringen voor de standaard aan te dragen? (dit zou een wijzigingsvoorstel aan de OGC kunnen worden)
Kennis (inhoudelijke, technisch) over GeoSPARQL die we opdoen leggen we vast op deze wiki.
Een eerste aanzet voor de kennisvastlegging over GeoSPARQL staat op GeoSPARQL kennispagina.
Hier even geparkeerd: Een plaatje van Paul Hermans over het onderwerp 'vocabulaire voor historisch erfgoed en geo'.
De Rijksdienst voor het Cultureel Erfgoed (RCE) is een onderdeel van het ministerie van Onderwijs, Cultuur en Wetenschap. We werken onder de rechtstreekse verantwoordelijkheid van de minister en voeren wet- en regelgeving en erfgoedbeleid uit dat het ministerie en de dienst samen maken. Ook ontwikkelen we praktisch toepasbare kennis en geven we advies over rijksmonumenten, landschap & leefomgeving, archeologie en roerend erfgoed.
DEN is het nationale instituut ter bevordering van netwerken, samenwerking en onderlinge kennisuitwisseling op het gebied van digitalisering in de brede cultuursector. DEN ondersteunt cultuurmakers en erfgoedbeherende instellingen om in gezamenlijkheid een actieve bijdrage te leveren aan de informatiemaatschappij op basis van digitale collectievorming, archivering en dienstverlening. DEN draagt in samenwerkingsverbanden tevens bij aan kennisdeling buiten Nederland.
Resource Description Framework (RDF) is een standaardmodel voor gegevensuitwisseling op het web. RDF heeft functies die het samenvoegen van gegevens vergemakkelijken, zelfs als de onderliggende schema's verschillen, en het ondersteunt specifiek de evolutie van schema's in de loop van de tijd zonder dat alle gegevensgebruikers moeten worden gewijzigd.
Het World Wide Web Consortium is een organisatie die de webstandaarden voor het wereldwijde web ontwerpt, zoals HTML, XHTML, XML, CSS en de Web Content Accessibility Guidelines. Het wordt geleid door Tim Berners-Lee, de originele bedenker van het HTTP-protocol en HTML, waar het web oorspronkelijk en nog steeds grotendeels op gebaseerd is.
De activiteiten van Platform Linked Data Nederland (PLDN) worden mede mogelijk gemaakt dankzij het Kadaster, TNO, Big Data Value Center (BDVC), ECP, Forum Standaardisatie, Kennisnet, SLO, Waternet, Taxonic, MarkLogic, Triply, Franz Inc., SemmTech, Rijksdienst voor het Cultureel Erfgoed (RCE), Beeld en Geluid, EuroSDR, de KVK en ArchiXL
Wilt u op de hoogte gehouden worden van nieuws en ontwikkelingen binnen PLDN?
Schrijf u dan in voor de nieuwsbrief