Boek/Salters

Linked-data & semantiek: we begrijpen elkaar steeds beter

Auteur: Marijke Salters, adviseur bureau Forum Standaardisatie

Waarom dit artikel?
[bewerken]

Dit artikel is geschreven omdat er op dit moment steeds meer behoefte ontstaat naar betekenisvol uitwisselen van gegevens (semantische interoperabiliteit) en Linked-data een oplossing lijkt te bieden.

De behoefte aan semantische interoperabiliteit is steeds groter omdat:

De interactie met de burger en het bedrijfsleven steeds vaker geautomatiseerd plaatsvindt, waardoor de betekenis van de begrippen steeds belangrijker wordt, denk aan voorinvulling van de belastingaangifte.
Onderlinge gegevensuitwisseling tussen overheidspartijen steeds vaker voorkomt, waarbij het ontbreken van een betekenis van een gegeven verstrekkende gevolgen kan hebben voor de betrokken burgers of bedrijven waarover de gegevensuitwisseling gaat. Denk aan het belang van een correct adres voor het verkrijgen van een uitkering.
De wet 'éénmalige uitvraag' draagt bij aan de noodzaak om hergebruik van gegevens toe te passen, terwijl iedere wet een eigen interpretatie van een gegeven kent. Er zijn bijvoorbeeld wettelijk 20 beschrijvingen van een varken, waarbij iedere beschrijving een eigen nut heeft binnen de context van die wetgeving.

Sinds een jaar of drie wordt de Linked-Data methodiek steeds vaker aangehaald als DE oplossing voor semantische problematiek. Linked-Data is een methodiek die het verbinden en integreren van alle gegevens die men wil delen mogelijk maakt via webtechnologie. Deze methodiek wordt vaak genoemd in relatie tot het semantische web, wat ook suggereert dat het bijdraagt aan het begrijpen van gegevens (semantiek). In dit artikel een korte analyse of deze methodiek die belofte kan waarmaken. Het artikel beschrijft de mogelijke rol van Linked-Data als open methode voor semantische interoperabiliteit

Dit artikel is geschreven voor de geïnteresseerde leek met enige bekendheid met informatietechnologie. Zodat hij/zij de waarde van Linked-Data beter kan inschatten.

Aan het eind van het artikel zal de vraag beantwoord moeten worden: Is Linked-Data een oplossing voor het probleem van semantische interoperabiliteit?

Wat is semantische interoperabiliteit?
[bewerken]

Semantische interoperabiliteit is in dit artikel het betekenisvol uitwisselen van gegevens. Semantiek is betekenisleer . Interoperabiliteit is de mogelijkheid van verschillende systemen, om met elkaar te communiceren en interacteren. Om dit te bewerkstelligen zijn standaarden, protocollen en procedures nodig.

Dit artikel is geschreven vanuit het perspectief van de Nederlandse Overheid. De overheid heeft behoefte aan gegevensuitwisseling tussen overheidspartijen onderling en met bedrijven en burgers. De gegevensuitwisseling tussen partijen (interoperabiliteit) kan op verschillende niveaus beschouwd worden. Deze niveaus zijn in een raamwerk samen te vatten. (zie hieronder: bron: EIF)

Figure 1 EIF model

Tot nog toe hebben de gekozen open standaarden binnen de Nederlandse overheid met name betrekking op de onderste, technische interoperabiliteitslaag. Deze open standaarden zorgen voor de mogelijkheid om in ieder geval gegevens tussen partijen uit te kunnen wisselen, qua transport en berichtafspraken. Semantiek vormt de tweede laag binnen dit raamwerk. Deze laag zorgt voor het betekenisvol uitwisselen van gegevens.

Wat is semantiek?
[bewerken]

Semantiek is betekenisleer. De semantiek of betekenisleer is een wetenschap die zich bezighoudt met de betekenis van symbolen, waarbij het in het bijzonder de bouwstenen van natuurlijke talen die voor de communicatie dienen ofwel woorden en zinnen betreft.

Bedrijven en overheidsorganisaties bewaren, bewerken en ontsluiten hun elektronische informatie al lang niet meer binnen de grenzen van één bedrijfsproces of informatiesysteem. Toch zijn maar weinig processen en systemen goed voorbereid op het onderling delen en combineren van informatie. Semantiek gaat over de inhoud, de betekenis en de bedoeling van uitgewisselde informatie.

Het meest gebruikte voorbeeld om de betekenis van een begrip te beschrijven is het woordenboek. In het woordenboek kom je verschillende soorten van beschrijving tegen:

Definitie van een begrip op basis van synoniemen
Een verwijzing naar mogelijke context in voorbeeldzinnen
Optioneel: beschrijving via eigenschappen van een begrip.

De woordenboek methode is internationaal geaccepteerd en gebruikt. Ter illustratie hieronder een foto van een begripsbeschrijving in het oude vertrouwde woordenboek.

Figure 2 Woordenboek: betekenis van “behandeling”, bron Dikke van Dale

In het bovenstaande voorbeeld zien we 5 betekenissen van behandeling. Deze 5 zijn aangegeven door 5 aparte beschrijvingen met eigen synoniemen. Voor alle 5 de betekenissen worden voorbeelden gegeven in een zin om de juiste context aan te geven.

Wat is Linked-Data?
[bewerken]

Linked-Data biedt een set openstandaarden en technieken waardoor publicatie en het verbinden van gegevens mogelijk wordt. De bedoeling van Linked-Data is het verbinden en integreren van alle gegevens die men wil delen. Linked-Data is een web-technologie benadering, die ook als semantisch web of web 3.0 gezien wordt. Hierbij spelen de gegevens zelf een substantiële rol met betekenis, ongeacht het document of de oorsprong van het bestand.

De bijbehorende Linked-Data principes die door Tim Berners-Lee[1] in 2006 beschreven zijn, zijn:

Gebruik URI’s als namen voor dingen[2]
Gebruik http URIS’s zodat men deze namen kan opzoeken
Als iemand gebruik maakt van de URI, zorg voor zinvolle informatie, op basis van open standaarden (RDF, SPARQL)
Zorg voor links naar andere URI’s, zodat men meer dingen kan ontdekken.

De belangrijkste eigenschap van de Linked-Data methodiek is de verbinding tussen gegevens. Zoals hierboven blijkt maakt de Linked-Data methodiek gebruik van verschillende open standaarden.

Hoe ontstaat de verbinding tussen de gegevens?
[bewerken]

Het mechanisme om de verbindingen te maken wordt geleverd door het “Resource Description Framework" (RDF). Dit mechanisme wordt ook elders in deze publicatie uitvoerig beschreven. In RDF wordt de relatie beschreven door het verstrekken van een datamodel dat gegevens in de vorm van <onderwerp>-<predikaat>-<object> triples codeert. Het onderwerp en het doel van een dergelijke triple zijn beide URI's. Deze identificeren elk een bron. Door een URI wordt ook beschreven hoe het subject en object zijn gerelateerd. Predikaat URI's komen uit woordenlijsten die verzamelingen zijn van URI's die relaties in een bepaald domein beschrijven.. Als voorbeeld: <medicijntoediening> <is een> <behandeling> Door het gebruik van ontologieen kan de “kennis” over het specifieke domein verrijkt worden. Een ontologie is een bijbehorende structuur. Bijvoorbeeld behandelingen bestaan uit medicijntoediening, consulten en fysiotherapie. Deze ontologieën kunnen beschreven worden met een gerelateerde standaard: OWL[3].

Deze geregistreerde informatie kan worden uitgevraagd met behulp van de query language SPARQL. Bijvoorbeeld “Welke behandelingen zijn mogelijk?”

Draagt de Linked-Data methode bij aan begripsvorming?
[bewerken]

Heel “plat” en instrumenteel vertaald: Kan Linked-Data de rol van een woordenboek vervullen?

1. Zoals hiervoor geïllustreerd kan in een woordenboek een begrip beschrijven aan de hand van synoniemen. Dat is een begrip met een “is gelijk aan” -relatie naar een ander begrip. Deze rol kan Linked-Data zeker op zich nemen. De bovenstaande 5 betekenissen van behandeling en hun synoniemen zijn zeker vorm te geven met behulp van RDF. . Als voorbeeld: <geneeskundige verzorging> <is een> <behandeling>

2. Daarnaast wordt in het woordenboek de context beschreven in de vorm van zinnen waarin het begrip kan voorkomen. De Linked-Data methodiek biedt hier ook de elementen voor. Een grammaticaal juiste zin kan bestaan uit een onderwerp (object) een werkwoordelijk gezegde (relatie/predicaat) en een leidend voorwerp (subject). In het woordenboek is echter de relatie tussen het te verduidelijken begrip en de voorbeeldzinnen vast. Vergelijk behandeling is gelijk aan in behandeling nemen in de context van wetgeving. Alleen een voorbeeldzin, waarin de term behandeling in de context van deze betekenis geïllustreerd wordt is zinvol. Voorbeeld: Hier kunnen we constateren dat de combinatie van beide niet zal lukken door het gebruikmaken van 1 “triple”, de toevoeging van de context vergt een quad.

Voorbeeld uit het woordenboek: <behandeling> <is> <geneeskundige verzorging>, maar alleen in een bepaalde context. In het woordenboek staat daarvoor de zin “onder behandeling van dokter R. zijn”. Of: te wel: <dokter R> <is een> <geneesheer> en bepaalt daarmee de betekenis van <behandeling> nl: synoniem aan <geneeskundige verzorging>. Gesimplificeerd, zonder echte voorbeeldzin: <behandeling> <is> <geneeskundige verzorging> in de context van <geneeskunde> . Deze gevolgtrekking kan gemaakt worden als een <geneesheer> <behoort bij> <geneeskunde>

3. De beschrijvingswijze van een begrip aan de hand van eigenschappen/ attributen is via Linked-Data standaarden mogelijk. Het “heeft een” predicaat kan gebruik worden voor attributen/ eigenschappen. Voorbeeld: Iedere behandeling (in alle vijf betekenissen) heeft een doorlooptijd als eigenschap. Een geneeskundige behandeling heeft een behandelend geneesheer als eigenschap. Door de set eigenschappen kan de “lezer” de betekenis afleiden of interpreteren..

Bovenstaande 3 voorbeelden tonen aan dat in vergelijking met het woordenboek de elementen voor de functie van het woordenboek beschikbaar zijn. Het meegeven van de context door een voorbeeldzin is mogelijk, maar behoorlijk complex.

Kortom het lijkt erop dat Linked-Data als methodiek de rol van een woordenboek kan vervullen en betekenis aan begrippen kan toevoegen.

De vervolgvraag is: Kan de omvorming naar Linked-data met de huidige stand van de automatisering uitgevoerd worden? Met andere woorden is de betekenis van de gepubliceerde informatie ook nu beschikbaar, zodat omvorming volgens deze methode mogelijk wordt?

Helaas blijkt dit niet het geval. De huidige gegevens in databases zijn niet op deze manier opgezet. De structuur van een bestaande database gaat uit van data in velden, waarbij de betekenis van de velden binnen het werkgebied (context) al vaststaat. Deze betekenissen zijn niet gespecificeerd binnen de database. De ontwerpspecificaties zijn vaak allang verdwenen. Ieder veld kent dus een eigen betekenis binnen het werkingsgebied van de database. Voor semantische interoperabiliteit is begrip op metaniveau over de werkingsgebieden (lees databases) nodig. Dit is niet te vinden in de huidige digitale informatie, maar zal door een persoon moeten worden toegevoegd. De kwaliteit van de beschrijving hangt daardoor sterk af van de menselijke factor. Alleen de “lezer” kan goed interpreteren wat bijvoorbeeld met het woord “behandeling” als veldnaam bedoeld wordt. In vergelijking: de velden in de databases moeten door kenners van de materie via een handmatige bewerking betekenis krijgen. Daarna kunnen deze gegevens een relatie krijgen naar andere velden in andere bestanden die hetzelfde betekenen. De kwaliteit van de relaties kan heel verkeerd uitpakken, denk b.v. aan homoniemen. Een homoniem heeft eigenlijk geen relatie: Vergelijk de zinnen: Ik gaf haar een ring voor haar verjaardag. Of: Hij ging in de tweede ronde in de ring knock-out. à A≠A.

Wat kan Linked-Data bijdragen? (2 cases)
[bewerken]

Juriconnect
[bewerken]

Doelstelling van het Platform Juriconnect, een samenwerkingsverband tussen meerdere overheidspartijen, is om met de betrokken partijen in de informatieketen van juridische informatie gezamenlijk te komen tot eenduidigheid in informatie-uitwisseling, structurering en metadatering.
Het oogmerk hierbij is om de informatie zowel bij de bron, de leverancier, als bij de afnemer efficiënt en doeltreffend te kunnen beheren en in de werkprocessen toe te kunnen passen. Daarbij wordt een efficiënte inrichting van de informatieketen nagestreefd, waarbij informatie- en waardetoevoeging zo dicht mogelijk bij de bron plaatsvindt en redundantie wordt tegengegaan.

Gestreefd wordt met name naar gebruik van, respectievelijk standaardisatie in:

Standaard-ID’s en verwijzingen naar wet- en regelgeving en jurisprudentie;
Standaard-ID’s en verwijzingen naar andere informatiesoorten in het
juridisch informatiedomein; met name: Internationale verdragen, officiële publicaties, commentaren, tijdschriftartikelen en boeken;
Standaard ID’s en verwijzingen voor EU-jurisprudentie en –regelgeving;
Uitwerking van gezamenlijke metadata op hoofdniveaus.

Om deze doelstelling te bereiken is gekozen voor de Linked-Data methodiek. De wetgeving brengt vele contexten bij elkaar en de kern van de Linked-Data methodiek is dat er meerdere “waarheden” (en dus meerdere contexten) zijn toegestaan. Tegelijkertijd biedt het daarmee inzicht in al deze verschillende waarheden.

Het eerste wat bij dit project nodig bleek was een URI strategie. De Linked-Data methode heeft deze nog niet gestandaardiseerd, terwijl de afspraak hoe een URI opgebouwd wordt essentieel is voor de vindbaarheid, als er sprake moet zijn van domein overstijgende uitwisseling.

Stelselcatalogus
[bewerken]

De stelselcatalogus biedt een overzicht van alle basisregistraties en de bijbehorende informatie elementen. Basisregistraties zijn registraties die door meerdere overheidsinstanties hergebruikt worden. Denk hierbij aan het GBA en de BAG. Evaluatie van het gebruik van de huidige Stelselcatalogus en wijzigende informatiebehoefte is in 2012 aanleiding geweest voor het realiseren van een toekomstvisie voor de Stelselcatalogus. Vanuit deze heroriëntatie heeft de stuurgroep Stelselcatalogus opdracht gegeven voor de ontwikkeling van Stelselcatalogus 2.0.

De Stelselcatalogus 2.0 gaat de betekenis van (authentieke) gegevens en begrippen in de onderscheiden basisregistratie zodanig presenteren dat eigenaren van bedrijfsprocessen kunnen beoordelen of zij dit nuttig kunnen gebruiken in het eigen bedrijfsproces.

De Stelselcatalogus 2.0 slaat een brug tussen begrippen uit het Stelsel van Basisregistraties en (nieuwe) wetgeving. De Stelselcatalogus gaat hiermee een brugfunctie vervullen tussen de wereld van informatici en de wetgevingsjuristen. Hiermee ontstaat transparantie van gegevens en begrippen. Daarbij wordt intensief ingezet op een betere en actuelere vulling van de Stelselcatalogus, waarbij de basisregistraties nadrukkelijk worden betrokken en een grotere rol krijgen.

Om dit te bereiken is ook hier gekozen voor de Linked-Data methodiek. Dit project heeft nu al aangetoond dat de toevoeging van een vierde element (de context) van een gegeven nodig is om de betekenis als informatie element te definiëren. Het project maakt daarom gebruik van Quad's in plaats van Triple’s: Daar waar de triple het formaat kent: <onderwerp> <predicaat> <object>, volgen quads het formaat: <context> <onderwerp> <predicaat> <object>. Het voorbeeld hiervan vindt u in de paragraaf: “Draagt Linked-Data bij aan begripsvorming? Punt 2.”

Wat zijn de voor- en Nadelen van een Linked-Data methodiek voor semantische interoperabiliteit
[bewerken]

Hieronder een aantal voor- en nadelen die ook door de projecten Juriconnect en de Stelselcatalogus 2..0 worden ervaren.

Voordelen
[bewerken]

Het gebruikte RDF mechanisme is domein neutraal . Linked-data is hierdoor te gebruiken voor ieder domein. Dit blijkt uit de toepasbaarheid voor beide projecten. Iedereen kan een eigen werkelijkheid publiceren via Linked-data.
Er zijn veel aanvaarde open standaarden die het RDF-construct ondersteunen. Zoals SPARQL en OWL, zowel Juriconnect als de Stelselcatalogus maken hier gebruik van.
Er zijn veel semantische webtechnologieën, in verschillende volwassenheidsstadia, zoals zoektechnologieën, collectieve kennissystemen en redeneermechanismen. De stelselcatalogus is opgebouwd uit verschillende webtechnologieën, die samen de catalogus inzichtelijk maken. Zie: http://www.e-overheid.nl/onderwerpen/stelselinformatiepunt/stelsel-van-basisregistraties/stelselvoorzieningen/stelselcatalogus/begrippen
Er is een toenemend aantal hoogwaardige domein ontologieën. De twee genoemde cases publiceren de eigen onthologieën en dragen hierdoor bij aan het verbeteren van het aantal domein anthologieën.
RDF kan gelezen worden door de mens, maar is bedoeld om inhoud machinaal verwerkbare en begrijpelijk te maken. Voor een project als de Stelselcatalogus is inzicht belangrijk, het feit dat RDF leesbaar is door een mens draagt bij aan de transparantie van het stelsel van basisregistraties.

Nadelen of tekortkomingen
[bewerken]

Expressiviteit met behulp van alleen triples is te beperkt voor het meegeven van context. Het project “de nieuwe stelselcatalogus” maakt daarom gebruik van de de zg.quad’s of toevoegingen van context.

Het ontbreken van begrip of ontologie op metanivo . Dit is een gevolg van de automatiseringsaanpak tot nog toe en is dus heel algemeen. Voor samenhangende data over domeinen (databases) heen is nooit een “grand design” geweest, dus deze is nu ook niet te vinden. De vraag is of deze achteraf nog te maken is? Voorbeeld: de interactieve plaat van het stelsel is achteraf gemaakt en over de exacte betekenis van de peilen (relaties) tussen de basisregistraties is nu nog geen helderheid. Wat geen semantiek kent kan ook niet uitgewerkt worden in een semantische taal.

Conversie van bestaande ongestructureerde content, maar ook van gestructureerde content uit databases is een enorme taak zijn . Computers zijn over het algemeen juist geschikt voor geautomatiseerde conversies, maar bij betekenisgeving is handmatige bewerking of controle nodig. Juriconnect probeert redundantie tegen te gaan, maar in de praktijk is zonder menselijke analyse niet te bepalen of het ene gebruikte begrip in de wetgeving echt hetzelfde betekent als het andere gebruikte begrip. Laat staan of een hele wet eigenlijk redundant is.

Conclusies
[bewerken]

Is Linked-Data een oplossing voor het probleem van semantische interoperabiliteit?"

Het antwoord is: We begrijpen elkaar steeds beter, door het gebruik van betere methoden, zoals Linked-Data , maar de volledige oplossing is nog niet beschikbaar.

Hierboven is onderbouwd dat de linked-data methodiek de rol van een woordenboek kan vervullen. De linked data methodiek biedt een sjabloon voor betekenistoekenning waar iedereen op kan aansluiten. Daardoor biedt het de belofte van een semantisch netwerk over organisatiegrenzen heen. Een groot voordeel daarbij is de openheid van deze set standaarden. Iedereen kan ze gebruiken.

Het wenkend perspectief is een worldwide semantic web: Elk gegeven als spin in het web van een netwerk. Maar handmatige inspanning voor semantische interoperabiliteit zal altijd noodzakelijk blijven . Een verkeerd geïnterpreteerde relatie/link is snel gemaakt, maar heeft in een volledig gelinkte omgeving grote gevolgen. Want ook voor Linked-Data geldt “garbage in, garbage out”. Misschien nog wel meer dan ooit te voren. De impact van vrijblijvend linken van bestaande data all over the World is veel groter dan in de conventionele systeemontwikkeling. Aan de andere kant: alle gepubliceerde informatie krijgt direct reactie van de vele communities die de publicaties op het internet volgen. Linked-Data zal een zelfregulerend geheel moeten worden.

Een kwestie van tijd? De migratie van de huidige situatie, waarbij de gegevens in databases staan in velden zonder toelichting, zal zeker niet vanzelf gaan. De relatie met bestaande technische standaarden in het EIF schema, waarmee tot nog toe de gegevensuitwisseling plaatsvindt zijn bijvoorbeeld nog nooit onderzocht. Kortom we zijn er nog niet, maar hoe meer gegevens via Linked-Data beschikbaar komen hoe beter we elkaar gaan begrijpen.

Bronnen
[bewerken]

1. Linked-Data, Opportunities for the Dutch e-Government , Marijke Abrahamse, MIM 27, March 4th 2013

2. http://www.e-overheid.nl/onderwerpen/stelselinformatiepunt/stelsel-van-basisregistraties/stelselvoorzieningen/stelselcatalogus

3. http://www.geonovum.nl/content/slimmer-hergebruiken-met-linked-data

4. http://en.wikipedia.org/wiki/Named_graph

5. https://www.ictu.nl/archief/noiv.nl/weblogs/bart-knubben/2011/02/23/het-web-is-plat-2/index.html

6. http://www.novay.nl/projecten/essence/7781

7. www.wikipedia.org

8. van Dale: Het groot woordenboek der Nederlandse taal, deel a\i

[1] Sir Tim Berners-Lee (Londen, 8 juni 1955) is samen met zijn toenmalig manager, de Belg Robert Cailliau, de bedenker en grondlegger van het World Wide Web (WWW).

[2] De term URI staat voor Uniform Resource Identifier. Deze identificeert een term/object op het internet. Voorheen werden URL’s gebruikt. Dit staat voor Uniform Resource Locator , hierbij werd alleen de vindplaats van een pagina. aangegeven. Een URI is specifieker dan een URL.

[3] In het semantisch web wordt ontologie als aanduiding gebruikt. Binnen het semantisch web moet een computer de betekenis van tekst en metadata kunnen afleiden en op basis van die betekenis kunnen redeneren en gevolgtrekkingen maken. (bron wikipedia)