Boek 5/Achtergrond: Linked Data: het hoe en waarom

In 2012 is een pilot opgestart rondom Linked Data, een aanpak om informatie uit verschillende bronnen op een betekenisvolle manier met elkaar te verbinden en te gebruiken. Ten tijde van de start van de pilot was Linked Data voor veel organisaties een buzzwoord met interessante potentie. Maar wat is Linked Data eigenlijk, hoe is het ontstaan, wat is de kracht ervan en hoe interessant is het voor overheid, bedrijfsleven en wetenschap?

Het was Sir Tim Berners-Lee, bedenker en grondlegger van het wereldwijde web (www), die eind vorige eeuw als eerste over de term ‘het semantisch web’ sprak. Volgens hem is het semantisch web de visie dat informatie verbonden moet zijn en daar heb je technieken voor nodig. Een complicerende factor daarbij is dat de betekenis van mensen, dingen, gebeurtenissen, et cetera, niet constant is. Die betekenis kan variëren. Zo kan iets meerdere benamingen hebben. Zoals bij ’s-Hertogenbosch, Den Bosch en Oeteldonk, waarbij het om dezelfde stad gaat. Of dezelfde benaming kan gebruikt worden binnen verschillende contexten met een verschillende betekenis. Zoals bij Bastille, wat een monument, een fort of een gevangenis kan zijn. Dit kan bij onjuist of slordig gebruik tot verwarring leiden. Mensen zijn gewend om contextuele factoren mee te nemen bij het toekennen van betekenis aan informatie. Voor machines geldt dit niet. Om computers toch in staat te stellen de juiste betekenis toe te kennen, is het aanbieden van relevante context van groot belang. Daar komt Linked Data om de hoek kijken. Linked Data is een techniek om met machine-leesbare context om te gaan, deze te genereren en te interpreteren.

De basis voor het semantisch web is RDF (Resource Description Framework), een data modellering standaard van het World Wide Web Consortium (W3C). In aanvulling op RDF kan RDFS (RDF Schema) gebruikt worden. Met behulp van RDFS kunnen ‘klassen’ van resources aangemaakt worden en ook beperkingen worden gelegd op de verschillende relaties die mogelijk zijn tussen instanties van deze klassen. Inmiddels is er een flink aantal RDF-standaarddefinities beschikbaar van resource- en relatietypes. Deze zijn vastgelegd in zogenoemde vocabulaires. Voorbeelden van veelgebruikte vocabulaires zijn SKOS (Simple Knowledge Organization System), voor het opstellen van begrippenkaders, gegevenswoordenboeken, taxonomieën en thesauri, en FOAF (Friend of a Friend), een vocabulaire dat gebruikmaakt van RDF om personen te beschrijven, hun relaties met andere personen en voorwerpen, en hun interacties.

In de visie van Berners-Lee past het semantisch web in de ontwikkeling van het internet: van het web van documenten (Web 1.0) via Web 2.0, waar het internet als interactief en sociaal communicatiemedium beschouwd wordt en waarbij gebruikers informatie kunnen uploaden naar Web 3.0: het web van Linked Data, waarbij links kunnen worden gebruikt en gevolgd en waarbij aanvullende informatie kan worden gepresenteerd.

De kracht van Linked Data[bewerken]

Binnen de (Nederlandse) overheid wordt niet alleen veel en steeds vaker data uitgewisseld, ook wordt veel data beschikbaar gesteld. Bijvoorbeeld via de verschillende basisregistraties, zoals de Basisregistraties Adressen en Gebouwen (BAG). Om die data goed te kunnen gebruiken, is een ‘bijsluiter’ wenselijk. Vergelijkbaar met een bijsluiter die je aantreft bij het verkrijgen van medicijnen. De bijsluiter als het gaat om data, bevat twee onderdelen. Het eerste onderdeel is semantiek. Met semantiek leg je de betekenis van gegevens vast. Het tweede onderdeel is provenance. Provenance gaat over hoe de data is ingewonnen, wordt aangegeven wat er met de data is gebeurd voordat het gepubliceerd is, wat de kwaliteit is van de data, waarvoor het wel of niet gebruikt kan worden, et cetera. De bijsluiter, met semantiek en provenance, helpt voorkomen dat er beslissingen worden genomen op basis van een verkeerde interpretatie van data.

Kenmerkende principes van Linked Data zijn:

Alle data wordt vastgelegd in triples. Deze triples vormen graafs die er uitzien als ketens en netwerken van datawolken.
Alle informatie wordt belicht vanuit een bepaalde invalshoek (viewpoints). Voor een volledig beeld van de situatie kunnen viewpoints gecombineerd worden tot een overzichtelijk en samenhangend verhaal.
Linked Data werkt met een ‘open world assumption’. Er kan altijd meer data beschikbaar komen en gebrek aan data betekent niet dat iets niet waar kan zijn. Een antwoord op een vraag kan dan ‘misschien’ of ‘onbekend’ zijn.
In de wereld van Linked Data kan iedereen een gegeven verrijken met eigen informatie. Zo komen verschillende perspectieven bij elkaar. Deze eigenschap wordt ook wel de AAA-slogan genoemd, Anybody can say Anything about Any topic.
Door gebruik te maken van bestaande vocabulaires wordt de interoperabiliteit tussen gegevens vergroot, waardoor data uit verschillende bronnen makkelijker met elkaar gecombineerd kunnen worden. De verschillen tussen data uit verschillende bronnen zijn makkelijker te overbruggen met Linked Data, omdat meer dezelfde ‘taal’ gesproken wordt. Ook kunnen datasilo’s uit hun isolement worden gehaald en data beter hergebruikt worden zonder dat data onnodig gekopieerd wordt. Er kan gelinkt worden naar één leidende bron.
Met Linked Data is het mogelijk om een grote hoeveelheid en verscheidenheid aan data met elkaar in verband te brengen. Daarbij maakt het niet uit of het nu kaartmateriaal is, illustraties, informatie op een webpagina, of gegevens uit een database.
Met Linked Data krijgen gegevens context. Een context die digitaal te verwerken is: de gegevens vertellen een verhaal. Hierdoor kunnen enorme hoeveelheden gegevens met elkaar worden verbonden en verwerkt.
Met Linked Data is verregaande data discovery mogelijk. Je kunt nieuwe data vinden, waarvan je het bestaan vooraf niet wist, maar die gelinkt is aan de databron waarmee je je zoekvraag begon. Zoekacties worden daarmee gerichter.
Databronnen kunnen op verschillende locaties staan en toch met één SPARQL query bevraagd worden, door gebruik te maken van federated queries.
Met Linked Data zijn oplossingen mogelijk die voorheen niet of niet makkelijk te realiseren waren. Voorbeelden zijn oplossingen waarbij data uit vele bronnen met elkaar gecombineerd worden. Zoals bij de fraudedetectieoplossing bij de Belastingdienst, waarbij zowel het model van de data als de data zelf op dagelijkse basis vernieuwd en gevisualiseerd kan worden om zo mogelijke fraudegevallen beter en sneller te kunnen detecteren.

Bij een dialoogtafel met stakeholders rond risico’s van aardbevingen door gasboringen in de provincie Groningen zitten mensen met verschillende achtergronden, kennis en informatie aan tafel. Met behulp van simulaties is het mogelijk inzicht te krijgen in de waarschijnlijke gevolgen voor huizen en gebouwen, de schade aan dijken en de bewoonbaarheid van het gebied na een beving. Voor het maken van zo’n simulatie is het nodig om informatie uit diverse bronnen bijeen te brengen. Denk aan data over grondsamenstelling, breuklijnen, meetgegevens van sensoren of kwaliteit van dijken. Wanneer je een dergelijke dialoogtafel ondersteunt met Linked Data, wordt het mogelijk om relatief snel een grote diversiteit aan relevante gegevens te verwerken. Hierdoor kunnen de deelnemers de reële risico’s van aardbevingen in beeld brengen op basis van een grote diversiteit aan kennisbronnen en invalshoeken. Zo ontstaat een goed beeld van de waarschijnlijke gevolgen voor huizen en gebouwen, de schade aan dijken en de bewoonbaarheid van het gebied na een beving.

Big data vs. open data vs. Linked Data[bewerken]

Er zijn vele benaderingen mogelijk op ‘data’, maar de drie belangrijkste van de laatste jaren zijn Big, Open en Linked. De drie benaderingen hebben overlap. Vaak gaan initiatieven van Linked Data over vrij beschikbare (open) data, en spelen issues gerelateerd aan het Bigviewpoint ook een rol. Als we hebben over de BAG als Linked Data, dan hebben we het automatisch ook over open data (immers, de BAG is open data).

Big data gaat vooral over het bij elkaar brengen van data in alle soorten en maten om daar analyses op te doen. Niet voor niets wordt big data soms ook wel smart data genoemd. Open data zijn datasets die met een open licentie beschikbaar worden gesteld zodat toegang en hergebruik zonder beperkingen mogelijk is. Het idee van open data is om de beperkingen in hergebruik tot een minimum te limiteren. Hierdoor wordt het delen en hergebruik van data bevorderd. Veel data van de overheid is open om transparantie te vergroten en economische activiteit te bevorderen. Onder open data wordt inmiddels ook verstaan dat data (indien relevant) ‘machine readable’ moet zijn en in een open formaat beschikbaar moet worden gesteld (Zie ook: het vijfsterrenmodel).

Linked Data is gebaseerd op de concepten van het wereldwijde web: de data is daar te vinden, in een gestructureerd open formaat, er is naar te linken dankzij de toepassing van URI’s en de data biedt zelf ook verdere relevante verwijzingen.

Vier principes[bewerken]

Voor Linked Data gelden er vier principes:

Geef alle dingen waaraan je wilt kunnen linken, een uniek adres op internet (Uniform Resource Identifiers; URIs), conform de Nederlandse URIstrategie.
Gebruik HTTP-URI’s zodat er naar deze dingen kan worden verwezen en ze kunnen worden opgezocht door mensen en machines.
Leg de informatie over het concept vast in een ‘triple’ (subject-predicaat-objectrelatie). Leg die triple vast en maak het beschikbaar op basis van standaarden, zoals RDF, SPARQL, OWL, JSON-LD of SKOS.
Neem links naar andere gerelateerde, open dataconcepten op in de beschrijving om het ontdekken van gerelateerde informatie op het web te verbeteren.

Vijfsterrenmodel[bewerken]

Als het gaat over Linked Data, dan gaat het onherroepelijk ook over het vijfsterrenmodel, zoals dat is uitgewerkt door Tim Berners-Lee. Het model is een hulpmiddel aan de hand waarvan organisaties toe kunnen werken naar machine-readable herbruikbare Linked Data. In het model is informatie zo ingedeeld dat computers deze automatisch kunnen verwerken. Hoe meer sterren data op het web hebben, hoe meer zij geschikt zijn voor automatische verwerking. En hoe hoger het aantal sterren, hoe beter de bruikbaarheid en de openheid van de dataset. Datasets van de overheid, zoals basisregistraties, hebben bij voorkeur vijf sterren.

De eerste drie sterren betreffen open data en vanaf de vierde en vijfde ster wordt gesproken over Linked (Open) Data.

1 ster: de informatie is beschikbaar op het internet, in welk formaat dan ook.
2 De informatie is online beschikbaar in een gestructureerd formaat, dat geschikt is voor automatisch hergebruik (zoals Excel in plaats van een plaatje van een tabel).
3 De informatie is online beschikbaar in een open bestandsformaat (zoals CSV in plaats van Excel).
4 Al het bovenstaande, zodat anderen makkelijk naar de dataobjecten kunnen verwijzen. Je zou kunnen zeggen: bij vier sterren is de data ‘linkable’ (URIs, RDF, etc.) en bij vijf sterren ook daadwerkelijk gelinkt.
5 Al het bovenstaande, en bovendien wordt er naar data van anderen verwezen voor meer context van de data.

In het Platform Linked Data Nederland is, met een knipoog naar het vijfsterrenmodel van Tim Berners-Lee, een variant verschenen met zes sterren. Deze variant heeft als extra dat data in de vierde stap wordt aangeboden als een service via een JSON API. Het beschikbaar stellen van data via een JSON API vraagt van de aanbieder van data minder inspanning dan het beschikbaar stellen van data in RDF, zoals Berners-Lee dat omschrijft. Daarmee wordt een drempel verlaagd en wordt tegemoet gekomen aan de wensen van ontwikkelaars.

Overheden en Linked Data[bewerken]

De roep om digitalisering van diensten en services heeft ervoor gezorgd dat (open) data, en daarmee Linked Data, ook voor de Nederlandse overheid steeds belangrijker zijn geworden. Sinds een aantal jaar volgt de overheid daarbij een internationale trend (met name zichtbaar in de Verenigde Staten, Australië en het Verenigd Koninkrijk), dat informatie van overheden actief openbaar beschikbaar, toegankelijk én herbruikbaar moet worden gesteld.

De beschikbaarheid en openheid van data en de mogelijkheid om verbanden te leggen tussen informatie op internet, speelde ook een voorname rol in het rapport ‘Open Overheid - Internationale beleidsanalyse en aanbevelingen voor Nederlands beleid’ (2011), dat het onderzoeksinstituut TNO in opdracht van het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) heeft opgesteld. In dat onderzoek is niet alleen de nadruk gelegd op informatie die ‘open’ is, maar is ook duidelijk gemaakt dat de samenhang in de informatie voor publiek duidelijk zichtbaar zou moeten zijn. ‘Omdat veel informatie tot stand komt binnen processen krijgt zij aanzienlijk meer betekenis door de samenhang van de informatie te laten zien. Daarmee wordt de informatie pas echt toegankelijk en herbruikbaar. Linked Data kan hierbij een rol spelen’ (pagina 17 – rapport Open Overheid).

Meerwaarde[bewerken]

In de afgelopen jaren hebben we gezien dat digitale dataverwerking bij overheid, bedrijfsleven en wetenschap een steeds belangrijker rol is gaan spelen. Maar er is nog veel meer mogelijk. Daarvoor is het wel nodig dat de basis, de onderlaag als het ware, in orde is. In plaats van dat ieder zijn digitale ‘taal’ gebruikt, zou je meer crosssectoraal (geowereld, zorg, cultuur, onderwijs, et cetera) willen werken. Door standaarden te gebruiken, bij voorkeur (open) standaarden die toch al gebruikt worden op het web, kan je tot meer interoperabiliteit komen. Dat kan al leiden tot een grote vermindering van ergernis en tot een forse toename van de maatschappelijke en economische waarde van data. Maar échte meerwaarde bereik je als niet alleen dezelfde (open) standaarden worden gebruikt, maar ook URIs worden toegepast, vocabulaires worden gemaakt en gebruikt en er wordt gelinkt. Dan kunnen we de volledige kracht van Linked Data benutten Alleen daarom al is het bestaan van een brede en sterke community in Nederland rondom Linked Data, geen overbodige luxe.

Boek 5/Achtergrond: Linked Data: het hoe en waarom

Inhoud

De kracht van Linked Data[bewerken]

Big data vs. open data vs. Linked Data[bewerken]

Vier principes[bewerken]

Vijfsterrenmodel[bewerken]

Overheden en Linked Data[bewerken]

Meerwaarde[bewerken]

Nieuwsbrief

Mogelijk gemaakt door

Leden