Linked-data & semantiek: we begrijpen elkaar steeds beter
Auteur: Marijke Salters, adviseur bureau Forum Standaardisatie
Dit artikel is geschreven omdat er op dit moment steeds meer behoefte ontstaat naar betekenisvol uitwisselen van gegevens (semantische interoperabiliteit) en Linked-data een oplossing lijkt te bieden.
De behoefte aan semantische interoperabiliteit is steeds groter omdat:
Sinds een jaar of drie wordt de Linked-Data methodiek steeds vaker aangehaald als DE oplossing voor semantische problematiek. Linked-Data is een methodiek die het verbinden en integreren van alle gegevens die men wil delen mogelijk maakt via webtechnologie. Deze methodiek wordt vaak genoemd in relatie tot het semantische web, wat ook suggereert dat het bijdraagt aan het begrijpen van gegevens (semantiek). In dit artikel een korte analyse of deze methodiek die belofte kan waarmaken. Het artikel beschrijft de mogelijke rol van Linked-Data als open methode voor semantische interoperabiliteit
Dit artikel is geschreven voor de geïnteresseerde leek met enige bekendheid met informatietechnologie. Zodat hij/zij de waarde van Linked-Data beter kan inschatten.
Aan het eind van het artikel zal de vraag beantwoord moeten worden: Is Linked-Data een oplossing voor het probleem van semantische interoperabiliteit?
Semantische interoperabiliteit is in dit artikel het betekenisvol uitwisselen van gegevens. Semantiek is betekenisleer . Interoperabiliteit is de mogelijkheid van verschillende systemen, om met elkaar te communiceren en interacteren. Om dit te bewerkstelligen zijn standaarden, protocollen en procedures nodig.
Dit artikel is geschreven vanuit het perspectief van de Nederlandse Overheid. De overheid heeft behoefte aan gegevensuitwisseling tussen overheidspartijen onderling en met bedrijven en burgers. De gegevensuitwisseling tussen partijen (interoperabiliteit) kan op verschillende niveaus beschouwd worden. Deze niveaus zijn in een raamwerk samen te vatten. (zie hieronder: bron: EIF)
Tot nog toe hebben de gekozen open standaarden binnen de Nederlandse overheid met name betrekking op de onderste, technische interoperabiliteitslaag. Deze open standaarden zorgen voor de mogelijkheid om in ieder geval gegevens tussen partijen uit te kunnen wisselen, qua transport en berichtafspraken. Semantiek vormt de tweede laag binnen dit raamwerk. Deze laag zorgt voor het betekenisvol uitwisselen van gegevens.
Semantiek is betekenisleer. De semantiek of betekenisleer is een wetenschap die zich bezighoudt met de betekenis van symbolen, waarbij het in het bijzonder de bouwstenen van natuurlijke talen die voor de communicatie dienen ofwel woorden en zinnen betreft.
Bedrijven en overheidsorganisaties bewaren, bewerken en ontsluiten hun elektronische informatie al lang niet meer binnen de grenzen van één bedrijfsproces of informatiesysteem. Toch zijn maar weinig processen en systemen goed voorbereid op het onderling delen en combineren van informatie. Semantiek gaat over de inhoud, de betekenis en de bedoeling van uitgewisselde informatie.
Het meest gebruikte voorbeeld om de betekenis van een begrip te beschrijven is het woordenboek. In het woordenboek kom je verschillende soorten van beschrijving tegen:
De woordenboek methode is internationaal geaccepteerd en gebruikt. Ter illustratie hieronder een foto van een begripsbeschrijving in het oude vertrouwde woordenboek.
Figure 2 Woordenboek: betekenis van “behandeling”, bron Dikke van Dale
In het bovenstaande voorbeeld zien we 5 betekenissen van behandeling. Deze 5 zijn aangegeven door 5 aparte beschrijvingen met eigen synoniemen. Voor alle 5 de betekenissen worden voorbeelden gegeven in een zin om de juiste context aan te geven.
Linked-Data biedt een set openstandaarden en technieken waardoor publicatie en het verbinden van gegevens mogelijk wordt. De bedoeling van Linked-Data is het verbinden en integreren van alle gegevens die men wil delen. Linked-Data is een web-technologie benadering, die ook als semantisch web of web 3.0 gezien wordt. Hierbij spelen de gegevens zelf een substantiële rol met betekenis, ongeacht het document of de oorsprong van het bestand.
De bijbehorende Linked-Data principes die door Tim Berners-Lee[1] in 2006 beschreven zijn, zijn:
De belangrijkste eigenschap van de Linked-Data methodiek is de verbinding tussen gegevens. Zoals hierboven blijkt maakt de Linked-Data methodiek gebruik van verschillende open standaarden.
Het mechanisme om de verbindingen te maken wordt geleverd door het “Resource Description Framework" (RDF). Dit mechanisme wordt ook elders in deze publicatie uitvoerig beschreven. In RDF wordt de relatie beschreven door het verstrekken van een datamodel dat gegevens in de vorm van <onderwerp>-<predikaat>-<object> triples codeert. Het onderwerp en het doel van een dergelijke triple zijn beide URI's. Deze identificeren elk een bron. Door een URI wordt ook beschreven hoe het subject en object zijn gerelateerd. Predikaat URI's komen uit woordenlijsten die verzamelingen zijn van URI's die relaties in een bepaald domein beschrijven.. Als voorbeeld: <medicijntoediening> <is een> <behandeling> Door het gebruik van ontologieen kan de “kennis” over het specifieke domein verrijkt worden. Een ontologie is een bijbehorende structuur. Bijvoorbeeld behandelingen bestaan uit medicijntoediening, consulten en fysiotherapie. Deze ontologieën kunnen beschreven worden met een gerelateerde standaard: OWL[3].
Deze geregistreerde informatie kan worden uitgevraagd met behulp van de query language SPARQL. Bijvoorbeeld “Welke behandelingen zijn mogelijk?”
Heel “plat” en instrumenteel vertaald: Kan Linked-Data de rol van een woordenboek vervullen?
1. Zoals hiervoor geïllustreerd kan in een woordenboek een begrip beschrijven aan de hand van synoniemen. Dat is een begrip met een “is gelijk aan” -relatie naar een ander begrip. Deze rol kan Linked-Data zeker op zich nemen. De bovenstaande 5 betekenissen van behandeling en hun synoniemen zijn zeker vorm te geven met behulp van RDF. . Als voorbeeld: <geneeskundige verzorging> <is een> <behandeling>
2. Daarnaast wordt in het woordenboek de context beschreven in de vorm van zinnen waarin het begrip kan voorkomen. De Linked-Data methodiek biedt hier ook de elementen voor. Een grammaticaal juiste zin kan bestaan uit een onderwerp (object) een werkwoordelijk gezegde (relatie/predicaat) en een leidend voorwerp (subject). In het woordenboek is echter de relatie tussen het te verduidelijken begrip en de voorbeeldzinnen vast. Vergelijk behandeling is gelijk aan in behandeling nemen in de context van wetgeving. Alleen een voorbeeldzin, waarin de term behandeling in de context van deze betekenis geïllustreerd wordt is zinvol. Voorbeeld: Hier kunnen we constateren dat de combinatie van beide niet zal lukken door het gebruikmaken van 1 “triple”, de toevoeging van de context vergt een quad.
Voorbeeld uit het woordenboek: <behandeling> <is> <geneeskundige verzorging>, maar alleen in een bepaalde context. In het woordenboek staat daarvoor de zin “onder behandeling van dokter R. zijn”. Of: te wel: <dokter R> <is een> <geneesheer> en bepaalt daarmee de betekenis van <behandeling> nl: synoniem aan <geneeskundige verzorging>. Gesimplificeerd, zonder echte voorbeeldzin: <behandeling> <is> <geneeskundige verzorging> in de context van <geneeskunde> . Deze gevolgtrekking kan gemaakt worden als een <geneesheer> <behoort bij> <geneeskunde>
3. De beschrijvingswijze van een begrip aan de hand van eigenschappen/ attributen is via Linked-Data standaarden mogelijk. Het “heeft een” predicaat kan gebruik worden voor attributen/ eigenschappen. Voorbeeld: Iedere behandeling (in alle vijf betekenissen) heeft een doorlooptijd als eigenschap. Een geneeskundige behandeling heeft een behandelend geneesheer als eigenschap. Door de set eigenschappen kan de “lezer” de betekenis afleiden of interpreteren..
Bovenstaande 3 voorbeelden tonen aan dat in vergelijking met het woordenboek de elementen voor de functie van het woordenboek beschikbaar zijn. Het meegeven van de context door een voorbeeldzin is mogelijk, maar behoorlijk complex.
Kortom het lijkt erop dat Linked-Data als methodiek de rol van een woordenboek kan vervullen en betekenis aan begrippen kan toevoegen.
De vervolgvraag is: Kan de omvorming naar Linked-data met de huidige stand van de automatisering uitgevoerd worden? Met andere woorden is de betekenis van de gepubliceerde informatie ook nu beschikbaar, zodat omvorming volgens deze methode mogelijk wordt?
Helaas blijkt dit niet het geval. De huidige gegevens in databases zijn niet op deze manier opgezet. De structuur van een bestaande database gaat uit van data in velden, waarbij de betekenis van de velden binnen het werkgebied (context) al vaststaat. Deze betekenissen zijn niet gespecificeerd binnen de database. De ontwerpspecificaties zijn vaak allang verdwenen. Ieder veld kent dus een eigen betekenis binnen het werkingsgebied van de database. Voor semantische interoperabiliteit is begrip op metaniveau over de werkingsgebieden (lees databases) nodig. Dit is niet te vinden in de huidige digitale informatie, maar zal door een persoon moeten worden toegevoegd. De kwaliteit van de beschrijving hangt daardoor sterk af van de menselijke factor. Alleen de “lezer” kan goed interpreteren wat bijvoorbeeld met het woord “behandeling” als veldnaam bedoeld wordt. In vergelijking: de velden in de databases moeten door kenners van de materie via een handmatige bewerking betekenis krijgen. Daarna kunnen deze gegevens een relatie krijgen naar andere velden in andere bestanden die hetzelfde betekenen. De kwaliteit van de relaties kan heel verkeerd uitpakken, denk b.v. aan homoniemen. Een homoniem heeft eigenlijk geen relatie: Vergelijk de zinnen: Ik gaf haar een ring voor haar verjaardag. Of: Hij ging in de tweede ronde in de ring knock-out. à A≠A.
Doelstelling van het Platform Juriconnect, een samenwerkingsverband tussen meerdere overheidspartijen, is om met de betrokken partijen in de informatieketen van juridische informatie gezamenlijk te komen tot eenduidigheid in informatie-uitwisseling, structurering en metadatering.
Het oogmerk hierbij is om de informatie zowel bij de bron, de leverancier, als bij de afnemer efficiënt en doeltreffend te kunnen beheren en in de werkprocessen toe te kunnen passen. Daarbij wordt een efficiënte inrichting van de informatieketen nagestreefd, waarbij informatie- en waardetoevoeging zo dicht mogelijk bij de bron plaatsvindt en redundantie wordt tegengegaan.
Gestreefd wordt met name naar gebruik van, respectievelijk standaardisatie in:
Om deze doelstelling te bereiken is gekozen voor de Linked-Data methodiek. De wetgeving brengt vele contexten bij elkaar en de kern van de Linked-Data methodiek is dat er meerdere “waarheden” (en dus meerdere contexten) zijn toegestaan. Tegelijkertijd biedt het daarmee inzicht in al deze verschillende waarheden.
Het eerste wat bij dit project nodig bleek was een URI strategie. De Linked-Data methode heeft deze nog niet gestandaardiseerd, terwijl de afspraak hoe een URI opgebouwd wordt essentieel is voor de vindbaarheid, als er sprake moet zijn van domein overstijgende uitwisseling.
De stelselcatalogus biedt een overzicht van alle basisregistraties en de bijbehorende informatie elementen. Basisregistraties zijn registraties die door meerdere overheidsinstanties hergebruikt worden. Denk hierbij aan het GBA en de BAG. Evaluatie van het gebruik van de huidige Stelselcatalogus en wijzigende informatiebehoefte is in 2012 aanleiding geweest voor het realiseren van een toekomstvisie voor de Stelselcatalogus. Vanuit deze heroriëntatie heeft de stuurgroep Stelselcatalogus opdracht gegeven voor de ontwikkeling van Stelselcatalogus 2.0.
De Stelselcatalogus 2.0 gaat de betekenis van (authentieke) gegevens en begrippen in de onderscheiden basisregistratie zodanig presenteren dat eigenaren van bedrijfsprocessen kunnen beoordelen of zij dit nuttig kunnen gebruiken in het eigen bedrijfsproces.
De Stelselcatalogus 2.0 slaat een brug tussen begrippen uit het Stelsel van Basisregistraties en (nieuwe) wetgeving. De Stelselcatalogus gaat hiermee een brugfunctie vervullen tussen de wereld van informatici en de wetgevingsjuristen. Hiermee ontstaat transparantie van gegevens en begrippen. Daarbij wordt intensief ingezet op een betere en actuelere vulling van de Stelselcatalogus, waarbij de basisregistraties nadrukkelijk worden betrokken en een grotere rol krijgen.
Om dit te bereiken is ook hier gekozen voor de Linked-Data methodiek. Dit project heeft nu al aangetoond dat de toevoeging van een vierde element (de context) van een gegeven nodig is om de betekenis als informatie element te definiëren. Het project maakt daarom gebruik van Quad's in plaats van Triple’s: Daar waar de triple het formaat kent: <onderwerp> <predicaat> <object>, volgen quads het formaat: <context> <onderwerp> <predicaat> <object>. Het voorbeeld hiervan vindt u in de paragraaf: “Draagt Linked-Data bij aan begripsvorming? Punt 2.”
Hieronder een aantal voor- en nadelen die ook door de projecten Juriconnect en de Stelselcatalogus 2..0 worden ervaren.
Is Linked-Data een oplossing voor het probleem van semantische interoperabiliteit?"
Het antwoord is: We begrijpen elkaar steeds beter, door het gebruik van betere methoden, zoals Linked-Data , maar de volledige oplossing is nog niet beschikbaar.
Hierboven is onderbouwd dat de linked-data methodiek de rol van een woordenboek kan vervullen. De linked data methodiek biedt een sjabloon voor betekenistoekenning waar iedereen op kan aansluiten. Daardoor biedt het de belofte van een semantisch netwerk over organisatiegrenzen heen. Een groot voordeel daarbij is de openheid van deze set standaarden. Iedereen kan ze gebruiken.
Het wenkend perspectief is een worldwide semantic web: Elk gegeven als spin in het web van een netwerk. Maar handmatige inspanning voor semantische interoperabiliteit zal altijd noodzakelijk blijven . Een verkeerd geïnterpreteerde relatie/link is snel gemaakt, maar heeft in een volledig gelinkte omgeving grote gevolgen. Want ook voor Linked-Data geldt “garbage in, garbage out”. Misschien nog wel meer dan ooit te voren. De impact van vrijblijvend linken van bestaande data all over the World is veel groter dan in de conventionele systeemontwikkeling. Aan de andere kant: alle gepubliceerde informatie krijgt direct reactie van de vele communities die de publicaties op het internet volgen. Linked-Data zal een zelfregulerend geheel moeten worden.
Een kwestie van tijd? De migratie van de huidige situatie, waarbij de gegevens in databases staan in velden zonder toelichting, zal zeker niet vanzelf gaan. De relatie met bestaande technische standaarden in het EIF schema, waarmee tot nog toe de gegevensuitwisseling plaatsvindt zijn bijvoorbeeld nog nooit onderzocht. Kortom we zijn er nog niet, maar hoe meer gegevens via Linked-Data beschikbaar komen hoe beter we elkaar gaan begrijpen.
1. Linked-Data, Opportunities for the Dutch e-Government , Marijke Abrahamse, MIM 27, March 4th 2013
3. http://www.geonovum.nl/content/slimmer-hergebruiken-met-linked-data
4. http://en.wikipedia.org/wiki/Named_graph
5. https://www.ictu.nl/archief/noiv.nl/weblogs/bart-knubben/2011/02/23/het-web-is-plat-2/index.html
6. http://www.novay.nl/projecten/essence/7781
8. van Dale: Het groot woordenboek der Nederlandse taal, deel a\i
[1] Sir Tim Berners-Lee (Londen, 8 juni 1955) is samen met zijn toenmalig manager, de Belg Robert Cailliau, de bedenker en grondlegger van het World Wide Web (WWW).
[2] De term URI staat voor Uniform Resource Identifier. Deze identificeert een term/object op het internet. Voorheen werden URL’s gebruikt. Dit staat voor Uniform Resource Locator , hierbij werd alleen de vindplaats van een pagina. aangegeven. Een URI is specifieker dan een URL.
[3] In het semantisch web wordt ontologie als aanduiding gebruikt. Binnen het semantisch web moet een computer de betekenis van tekst en metadata kunnen afleiden en op basis van die betekenis kunnen redeneren en gevolgtrekkingen maken. (bron wikipedia)
Forum Standaardisatie adviseert de hele publieke sector over het gebruik van open standaarden. De overheid wisselt veel digitale gegevens uit. Dit moet betrouwbaar, eenduidig en veilig gebeuren en dat lukt het beste met open ICT standaarden. Daarnaast stimuleert het Forum samenwerkingsinitiatieven rond standaardisatie. Forum Standaardisatie is een adviescommissie met deskundigen uit diverse overheidsorganisaties, het bedrijfsleven en de wetenschap.
Resource Description Framework (RDF) is een standaardmodel voor gegevensuitwisseling op het web. RDF heeft functies die het samenvoegen van gegevens vergemakkelijken, zelfs als de onderliggende schema's verschillen, en het ondersteunt specifiek de evolutie van schema's in de loop van de tijd zonder dat alle gegevensgebruikers moeten worden gewijzigd.
Vindbaarheid (Eng. Discoverability) is de eigenschap van data, data deze data makkelijk gevonden kan worden door mensen en machines die van deze data gebruik willen maken. Bij Linked Data maakt men gebruik van URI's en metadata om data beter vindbaar te maken, maar vaak moet dan nog iets extra's doen om deze data ook vindbaar te maken voor zoekmachines (zie het voorbeeld van de Kadaster data in Finland). En zie ook http://www.den.nl/thema/165/ en http://koop.overheid.nl/producten/owms-overheidnl-web-metadata-standaard.
Metamodel Informatiemodellering (MIM) is bedoeld om alle informatiemodellen in Nederland nog beter op elkaar aan te laten sluiten. VNG Realisatie, Kadaster en Geonovum daarom gezamenlijk een metamodel ontwikkeld voor informatiemodellering. Hierin komt de modelleringskennis van deze drie organisaties samen.
Het wereldwijde web (www) ook wel met de Engelse term 'world wide web' aangeduid, maar meestal kortweg het web, houdt in:
Het wereldwijde web (www) ook wel met de Engelse term 'world wide web' aangeduid, maar meestal kortweg het web, houdt in:
Een Uniform Resource Locator (afgekort URL) is een gestructureerde naam die verwijst naar een stuk data. Voorbeelden zijn het unieke adres waarmee de locatie van een webpagina op internet wordt aangegeven of een e-mailadres. In de naam is alle informatie opgenomen over de benodigde techniek om de betreffende gegevens te bereiken. De URL is een bijzondere vorm van de URI.
Een Uniform Resource Locator (afgekort URL) is een gestructureerde naam die verwijst naar een stuk data. Voorbeelden zijn het unieke adres waarmee de locatie van een webpagina op internet wordt aangegeven of een e-mailadres. In de naam is alle informatie opgenomen over de benodigde techniek om de betreffende gegevens te bereiken. De URL is een bijzondere vorm van de URI.
De activiteiten van Platform Linked Data Nederland (PLDN) worden mede mogelijk gemaakt dankzij het Kadaster, TNO, Big Data Value Center (BDVC), ECP, Forum Standaardisatie, Kennisnet, SLO, Waternet, Taxonic, MarkLogic, Triply, Franz Inc., SemmTech, Rijksdienst voor het Cultureel Erfgoed (RCE), Beeld en Geluid, EuroSDR, de KVK en ArchiXL
Wilt u op de hoogte gehouden worden van nieuws en ontwikkelingen binnen PLDN?
Schrijf u dan in voor de nieuwsbrief