In 2012 is een pilot opgestart rondom Linked Data, een aanpak om informatie uit verschillende bronnen op een betekenisvolle manier met elkaar te verbinden en te gebruiken. Ten tijde van de start van de pilot was Linked Data voor veel organisaties een buzzwoord met interessante potentie. Maar wat is Linked Data eigenlijk, hoe is het ontstaan, wat is de kracht ervan en hoe interessant is het voor overheid, bedrijfsleven en wetenschap?
Het was Sir Tim Berners-Lee, bedenker en grondlegger van het wereldwijde web (www), die eind vorige eeuw als eerste over de term ‘het semantisch web’ sprak. Volgens hem is het semantisch web de visie dat informatie verbonden moet zijn en daar heb je technieken voor nodig. Een complicerende factor daarbij is dat de betekenis van mensen, dingen, gebeurtenissen, et cetera, niet constant is. Die betekenis kan variëren. Zo kan iets meerdere benamingen hebben. Zoals bij ’s-Hertogenbosch, Den Bosch en Oeteldonk, waarbij het om dezelfde stad gaat. Of dezelfde benaming kan gebruikt worden binnen verschillende contexten met een verschillende betekenis. Zoals bij Bastille, wat een monument, een fort of een gevangenis kan zijn. Dit kan bij onjuist of slordig gebruik tot verwarring leiden. Mensen zijn gewend om contextuele factoren mee te nemen bij het toekennen van betekenis aan informatie. Voor machines geldt dit niet. Om computers toch in staat te stellen de juiste betekenis toe te kennen, is het aanbieden van relevante context van groot belang. Daar komt Linked Data om de hoek kijken. Linked Data is een techniek om met machine-leesbare context om te gaan, deze te genereren en te interpreteren.
De basis voor het semantisch web is RDF (Resource Description Framework), een data modellering standaard van het World Wide Web Consortium (W3C). In aanvulling op RDF kan RDFS (RDF Schema) gebruikt worden. Met behulp van RDFS kunnen ‘klassen’ van resources aangemaakt worden en ook beperkingen worden gelegd op de verschillende relaties die mogelijk zijn tussen instanties van deze klassen. Inmiddels is er een flink aantal RDF-standaarddefinities beschikbaar van resource- en relatietypes. Deze zijn vastgelegd in zogenoemde vocabulaires. Voorbeelden van veelgebruikte vocabulaires zijn SKOS (Simple Knowledge Organization System), voor het opstellen van begrippenkaders, gegevenswoordenboeken, taxonomieën en thesauri, en FOAF (Friend of a Friend), een vocabulaire dat gebruikmaakt van RDF om personen te beschrijven, hun relaties met andere personen en voorwerpen, en hun interacties. |
In de visie van Berners-Lee past het semantisch web in de ontwikkeling van het internet: van het web van documenten (Web 1.0) via Web 2.0, waar het internet als interactief en sociaal communicatiemedium beschouwd wordt en waarbij gebruikers informatie kunnen uploaden naar Web 3.0: het web van Linked Data, waarbij links kunnen worden gebruikt en gevolgd en waarbij aanvullende informatie kan worden gepresenteerd.
Binnen de (Nederlandse) overheid wordt niet alleen veel en steeds vaker data uitgewisseld, ook wordt veel data beschikbaar gesteld. Bijvoorbeeld via de verschillende basisregistraties, zoals de Basisregistraties Adressen en Gebouwen (BAG). Om die data goed te kunnen gebruiken, is een ‘bijsluiter’ wenselijk. Vergelijkbaar met een bijsluiter die je aantreft bij het verkrijgen van medicijnen. De bijsluiter als het gaat om data, bevat twee onderdelen. Het eerste onderdeel is semantiek. Met semantiek leg je de betekenis van gegevens vast. Het tweede onderdeel is provenance. Provenance gaat over hoe de data is ingewonnen, wordt aangegeven wat er met de data is gebeurd voordat het gepubliceerd is, wat de kwaliteit is van de data, waarvoor het wel of niet gebruikt kan worden, et cetera. De bijsluiter, met semantiek en provenance, helpt voorkomen dat er beslissingen worden genomen op basis van een verkeerde interpretatie van data.
Kenmerkende principes van Linked Data zijn:
Bij een dialoogtafel met stakeholders rond risico’s van aardbevingen door gasboringen in de provincie Groningen zitten mensen met verschillende achtergronden, kennis en informatie aan tafel. Met behulp van simulaties is het mogelijk inzicht te krijgen in de waarschijnlijke gevolgen voor huizen en gebouwen, de schade aan dijken en de bewoonbaarheid van het gebied na een beving. Voor het maken van zo’n simulatie is het nodig om informatie uit diverse bronnen bijeen te brengen. Denk aan data over grondsamenstelling, breuklijnen, meetgegevens van sensoren of kwaliteit van dijken. Wanneer je een dergelijke dialoogtafel ondersteunt met Linked Data, wordt het mogelijk om relatief snel een grote diversiteit aan relevante gegevens te verwerken. Hierdoor kunnen de deelnemers de reële risico’s van aardbevingen in beeld brengen op basis van een grote diversiteit aan kennisbronnen en invalshoeken. Zo ontstaat een goed beeld van de waarschijnlijke gevolgen voor huizen en gebouwen, de schade aan dijken en de bewoonbaarheid van het gebied na een beving. |
Er zijn vele benaderingen mogelijk op ‘data’, maar de drie belangrijkste van de laatste jaren zijn Big, Open en Linked. De drie benaderingen hebben overlap. Vaak gaan initiatieven van Linked Data over vrij beschikbare (open) data, en spelen issues gerelateerd aan het Bigviewpoint ook een rol. Als we hebben over de BAG als Linked Data, dan hebben we het automatisch ook over open data (immers, de BAG is open data).
Big data gaat vooral over het bij elkaar brengen van data in alle soorten en maten om daar analyses op te doen. Niet voor niets wordt big data soms ook wel smart data genoemd. Open data zijn datasets die met een open licentie beschikbaar worden gesteld zodat toegang en hergebruik zonder beperkingen mogelijk is. Het idee van open data is om de beperkingen in hergebruik tot een minimum te limiteren. Hierdoor wordt het delen en hergebruik van data bevorderd. Veel data van de overheid is open om transparantie te vergroten en economische activiteit te bevorderen. Onder open data wordt inmiddels ook verstaan dat data (indien relevant) ‘machine readable’ moet zijn en in een open formaat beschikbaar moet worden gesteld (Zie ook: het vijfsterrenmodel).
Linked Data is gebaseerd op de concepten van het wereldwijde web: de data is daar te vinden, in een gestructureerd open formaat, er is naar te linken dankzij de toepassing van URI’s en de data biedt zelf ook verdere relevante verwijzingen.
Voor Linked Data gelden er vier principes:
Als het gaat over Linked Data, dan gaat het onherroepelijk ook over het vijfsterrenmodel, zoals dat is uitgewerkt door Tim Berners-Lee. Het model is een hulpmiddel aan de hand waarvan organisaties toe kunnen werken naar machine-readable herbruikbare Linked Data. In het model is informatie zo ingedeeld dat computers deze automatisch kunnen verwerken. Hoe meer sterren data op het web hebben, hoe meer zij geschikt zijn voor automatische verwerking. En hoe hoger het aantal sterren, hoe beter de bruikbaarheid en de openheid van de dataset. Datasets van de overheid, zoals basisregistraties, hebben bij voorkeur vijf sterren.
De eerste drie sterren betreffen open data en vanaf de vierde en vijfde ster wordt gesproken over Linked (Open) Data.
In het Platform Linked Data Nederland is, met een knipoog naar het vijfsterrenmodel van Tim Berners-Lee, een variant verschenen met zes sterren. Deze variant heeft als extra dat data in de vierde stap wordt aangeboden als een service via een JSON API. Het beschikbaar stellen van data via een JSON API vraagt van de aanbieder van data minder inspanning dan het beschikbaar stellen van data in RDF, zoals Berners-Lee dat omschrijft. Daarmee wordt een drempel verlaagd en wordt tegemoet gekomen aan de wensen van ontwikkelaars. |
De roep om digitalisering van diensten en services heeft ervoor gezorgd dat (open) data, en daarmee Linked Data, ook voor de Nederlandse overheid steeds belangrijker zijn geworden. Sinds een aantal jaar volgt de overheid daarbij een internationale trend (met name zichtbaar in de Verenigde Staten, Australië en het Verenigd Koninkrijk), dat informatie van overheden actief openbaar beschikbaar, toegankelijk én herbruikbaar moet worden gesteld.
De beschikbaarheid en openheid van data en de mogelijkheid om verbanden te leggen tussen informatie op internet, speelde ook een voorname rol in het rapport ‘Open Overheid - Internationale beleidsanalyse en aanbevelingen voor Nederlands beleid’ (2011), dat het onderzoeksinstituut TNO in opdracht van het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) heeft opgesteld. In dat onderzoek is niet alleen de nadruk gelegd op informatie die ‘open’ is, maar is ook duidelijk gemaakt dat de samenhang in de informatie voor publiek duidelijk zichtbaar zou moeten zijn. ‘Omdat veel informatie tot stand komt binnen processen krijgt zij aanzienlijk meer betekenis door de samenhang van de informatie te laten zien. Daarmee wordt de informatie pas echt toegankelijk en herbruikbaar. Linked Data kan hierbij een rol spelen’ (pagina 17 – rapport Open Overheid).
In de afgelopen jaren hebben we gezien dat digitale dataverwerking bij overheid, bedrijfsleven en wetenschap een steeds belangrijker rol is gaan spelen. Maar er is nog veel meer mogelijk. Daarvoor is het wel nodig dat de basis, de onderlaag als het ware, in orde is. In plaats van dat ieder zijn digitale ‘taal’ gebruikt, zou je meer crosssectoraal (geowereld, zorg, cultuur, onderwijs, et cetera) willen werken. Door standaarden te gebruiken, bij voorkeur (open) standaarden die toch al gebruikt worden op het web, kan je tot meer interoperabiliteit komen. Dat kan al leiden tot een grote vermindering van ergernis en tot een forse toename van de maatschappelijke en economische waarde van data. Maar échte meerwaarde bereik je als niet alleen dezelfde (open) standaarden worden gebruikt, maar ook URIs worden toegepast, vocabulaires worden gemaakt en gebruikt en er wordt gelinkt. Dan kunnen we de volledige kracht van Linked Data benutten Alleen daarom al is het bestaan van een brede en sterke community in Nederland rondom Linked Data, geen overbodige luxe.
Het wereldwijde web (www) ook wel met de Engelse term 'world wide web' aangeduid, maar meestal kortweg het web, houdt in:
Het World Wide Web Consortium is een organisatie die de webstandaarden voor het wereldwijde web ontwerpt, zoals HTML, XHTML, XML, CSS en de Web Content Accessibility Guidelines. Het wordt geleid door Tim Berners-Lee, de originele bedenker van het HTTP-protocol en HTML, waar het web oorspronkelijk en nog steeds grotendeels op gebaseerd is.
Resource Description Framework (RDF) is een standaardmodel voor gegevensuitwisseling op het web. RDF heeft functies die het samenvoegen van gegevens vergemakkelijken, zelfs als de onderliggende schema's verschillen, en het ondersteunt specifiek de evolutie van schema's in de loop van de tijd zonder dat alle gegevensgebruikers moeten worden gewijzigd.
Een application programming interface (API) is een verzameling definities op basis waarvan een computerprogramma kan communiceren met een ander programma of onderdeel (meestal in de vorm van bibliotheken). Vaak vormen API's de scheiding tussen verschillende lagen van abstractie, zodat applicaties op een hoog niveau van abstractie kunnen werken en het minder abstracte werk uitbesteden aan andere programma's. Hierdoor hoeft bijvoorbeeld een tekenprogramma niet te weten hoe het de printer moet aansturen, maar roept het daarvoor een gespecialiseerd stuk software aan in een bibliotheek, via een afdruk-API.
De activiteiten van Platform Linked Data Nederland (PLDN) worden mede mogelijk gemaakt dankzij het Kadaster, TNO, Big Data Value Center (BDVC), ECP, Forum Standaardisatie, Kennisnet, SLO, Waternet, Taxonic, MarkLogic, Triply, Franz Inc., SemmTech, Rijksdienst voor het Cultureel Erfgoed (RCE), Beeld en Geluid, EuroSDR, de KVK en ArchiXL
Wilt u op de hoogte gehouden worden van nieuws en ontwikkelingen binnen PLDN?
Schrijf u dan in voor de nieuwsbrief