Het context dilemma hanteren met Linked Data[bewerken]

Auteurs

Rinke Hoekstra (Vrije Universiteit)
Marcel van Mackelenbergh (Belastingdienst)

Inleiding[bewerken]

Hergebruik van data kent een context-probleem: data betekent niet hetzelfde in elke context. Als mensen data creëren dan hebben ze daarmee een doel voor ogen. Ook hebben mensen een beeld van de wereld. Data bevatten impliciet betekenis die voortkomt uit dat doel en uit dat beeld. Geen rekening houden met deze impliciete betekenis veroorzaakt belangrijke fouten in de uitvoering.

Linked Data erkent dat data een context hebben en biedt een manier om hier mee om te gaan. Linked Data gaat uit van de ‘dingen’ die bestaan, gerepresenteerd als zogenaamde resources. Iedere resource wordt aangeduid middels een identifier (URI). Doordat partijen dezelfde URI gebruiken voor het aanduiden van een resource, zijn ze in staat om data over die resource met elkaar uit te wisselen. Een afnemer van data ziet op deze manier welke data een leverancier vastlegt over een bepaalde resource. De afnemer is echter ook altijd vrij om zijn eigen data in te zetten. Hierdoor ontstaat maximaal hergebruik met de flexibiliteit die de afnemer nodig heeft voor zijn eigen context.

De URI van resources geeft een indicatie van de context waarin data is geproduceerd. Een URI binnen het domein ‘belastingdienst.nl’ heeft duidelijk een andere status dan URIs binnen ‘vu.nl’. Het domein representeert de procudent van de data. Dit is echter niet voldoende, want het reflecteert het beeld van de data slechts ten dele, en het doel helemaal niet.

Er is dus een nieuw soort data nodig in dit web van data. Er bestaat nu al aandacht voor de herkomst, de zogenaamde provenance van data. Provenance data beschrijven onder andere hoe, wanneer, door wie en waarom data zijn gemaakt. Deze provenance is relevant omdat een afnemer van data hiermee een inschatting kan maken of de data (her)bruikbaar zijn voor zijn eigen context. In dit artikel stellen wij voor om naast de provenance ook de bruikbaarheid (usability) van data vast te leggen. Bruikbaarheid van data geeft aan in welke contexten data heeft geleid tot een succesvolle uitvoering.

Interoperabiliteit[bewerken]

Interoperabiliteit tussen systemen betekent dat er gebruik gemaakt wordt van data die niet voor dat gebruik (een systeem) zijn gecreëerd. Data wordt altijd gecreëerd ten behoeve van een bepaald gebruik(sdoel). Bijvoorbeeld voor het afdragen van inkomstenbelasting. De data heeft een bepaalde betekenis. Bij interoperabiliteit willen we informatie die vergaard is voor een bepaald gebruik, inzetten voor een ander gebruik.

Partijen kunnen de behoefte hebben om samen te werken vanuit één enkele bron van data. Voordelen van het werken vanuit één enkele bron zijn onder andere dat de samenwerkende partijen:

werken vanuit dezelfde waarheid, er zijn geen tegenstrijdigheden
minder werken met verouderde informatie
samen werken aan het verhogen van de kwaliteit van de data
slechts op één plaats data verzamelen en bijwerken: efficiëntie

Master Data Management[bewerken]

Master data management (MDM) heeft tot doel om tot een overkoepelend datamodel te komen (Bonnet, 2010). Een overkoepelend datamodel stelt partijen in staat om te werken met één bron. MDM wordt ook wel aangeduid met canonical modelling. Master data management wordt onder andere gehanteerd bij ketenautomatisering.

Voor MDM moeten partijen in standaardisatietrajecten samenwerken om te komen tot overeenstemming over de betekenis in het datamodel. Indien partijen verschillend denken over een betekenis dan heeft de samenwerking grofweg drie mogelijkheden:

de betekenis algemener (ruimer) definiëren
één of meer partijen vragen om te werken met een veranderde betekenis (standaardisatie)
de eigen data vertalen naar de master data

Het gevolg van 1. Is dat er op het niveau van de master data minder informatie is. Er kan hierdoor op het niveau van MDM minder informatie uitgewisseld worden. Het gevolg van 2. is dat de partijen die werken met een veranderde betekenis,vaak minder in staat zijn om hun doelen te bereiken. Met 3. wordt de betekenis van de data vaak verwrongen: de masterdata geven niet goed weer wat er met de oorspronkelijke de data bedoeld was.

Open World Assumption[bewerken]

De Open World Assumption zegt dat je alleen impliciet kunt stellen ‘dat je iets niet weet’ maar dat je niet kunt stellen ‘dat iets niet bestaat’ (Allemang & Handler, 2011). Deze stelling maakt het beeld op data zoveel anders. Namelijk door te stellen dat je het niet weet, laat je open dat er misschien iemand anders is, die het wel weet. Welke databron de informatie bevat, is van tevoren niet bekend. Een gevolg van deze veronderstelling is dat een ontwerper van Linked Data zich richt op het vinden van data in plaats van het zelf creëren en beheren van data.

Vandaag zien we dit al voor de informatie die te vinden is op het internet: op heel veel vragen heeft iemand een antwoord en is ook nog zo aardig geweest om dat antwoord op het internet te publiceren. Het idee van Linked Data is dat dit ook met data gaat gebeuren. Niet langer meer zelf de data creëren en beheren maar linken naar de databron waar deze data reeds bestaat en wordt onderhouden.

Anybody can say Anything about Anything (AAA)[bewerken]

Een methodologie gestoeld op Linked Data hanteert een andere werkwijze dan MDM. Linked Data vereist niet dat er overeenstemming bestaat over de betekenis in het datamodel. Linked Data biedt volledige vrijheid in het bestaan van verschillen tussen de betekenissen. Linked Data heeft niet tot doel om tot een consistent geheel van betekenis te komen. Binnen Linked Data mogen schijnbare tegenstrijdigheden voorkomen: Anybody can say Anything about Anything. (Charaudeau, 2011)

Linked Data[bewerken]

Linked Data is, net zoals Master Data Management, gericht op het hergebruiken van data van anderen. De focus van Linked Data richt zich echter op de sleutels (identifiers), niet op een datamodel. Met Linked Data richt de ontwerper zich op wat er bestaat. Daarbij vraagt de ontwerper zich af hoe hij van de dingen die bestaan, een aanduiding kan maken. Een aanduiding wordt in de informatiekunde een sleutel of identifier genoemd.

Bij kinderen is dit ‘vaststellen wat bestaat’ nog goed te zien als een aparte mentale handeling (Vygotski, 1933). Een ouder en een kind wijzen naar dingen en geven daar een naam aan. Al wijzend herhalen beiden elkaars uitroepen, bijvoorbeeld ‘poes’ of ‘auto’. Dat allereerste stapje is nodig voor kennisoverdracht: als er een sleutel is, kunnen mensen het met elkaar hebben over ‘de dingen’ ook als die dingen niet aanwezig zijn. Dat is precies hetgeen gebeurt bij Linked Data. Partijen wijzen naar dingen en geven er een sleutel (URI) aan. Via deze sleutels zijn partijen in staat met elkaar te praten.

De ontwerper kijkt daarom of anderen reeds sleutels hebben voor de dingen die hij wil aanduiden. Als de ontwerper een bekende sleutel gebruikt, dan kan hij zijn data eenvoudig koppelen met die van anderen en andersom.

Sleutels vormen de infrastructuur waarlangs communicatie plaatsvindt.

Interoperabiliteit met Linked Data[bewerken]

Op het moment dat de ontwerper de data van andere partijen wil gaan gebruiken, moet de ontwerper beslissen of de data van de ander voldoet voor het doel waarvoor hij de data wil gaan inzetten.

Voor het creëren van interoperabiliteit denkt de ontwerper aan:

compatibiliteit: kan de structuur van de databron
1. gelezen worden? (syntax)
2. tot op bepaalde hoogte begrepen worden? (semantiek)
consistentie: wanneer wijkt de betekenis volgens de databron af van de betekenis die men er zelf aan hecht?

Op ieder van deze gebieden kan de ontwerper zijn eisen stellen. De ontwerper kan:

iedere structuur van data accepteren (NoSQL) of een hoge validatie (schema) vereisen
de data oppervlakkig begrijpen (bijv. alleen de kolomnamen) of een diepgaande studie doen naar de manier van denken en de drijfveren van de beheerder van de databron
de betekenisverschillen (die voor de ontwerper afwijkingen zijn) toestaan of ieder verschil afkeuren

Een belangrijk verschil tussen Master Data Management en Linked Data is dat bij MDM er vooral vooraf streng wordt vastgehouden aan eisen. Bij Linked Data worden structuren meestal geaccepteerd (NoSQL) en wordt van tevoren niet te streng gekeken naar mogelijke betekenisverschillen. Bij Linked Data wordt veel meer achteraf gecompenseerd voor afwijkingen in compatibiliteit en/of consistentie. Achteraf compenseren is mogelijk bij Linked Data omdat er andere databronnen zijn die kunnen compenseren voor de tekortkomingen van de gebruikte databron. ‘Beter iets dan niets’ is het motto bij Linked Data. Hierdoor ontwikkelt men Linked Data sneller en met meer, maar soms wat onnauwkeurig resultaat. Deze onnauwkeurigheid moet tijdens de uitvoering gecompenseerd worden. Het kunnen koppelen staat voorop bij Linked Data. Onvolkomenheden worden op een later moment ondervangen.

Samenwerking[bewerken]

Linked Data gaat op een geheel andere manier om met samenwerking dan Master Data Management. Master Data Management vormt een gesloten systeem waar sterk wordt vastgehouden aan mogelijke verschillen in compatibiliteit en consistentie. Linked Data vormt een open systeem waarbij alles er op gericht is dat partijen elkaars data kunnen koppelen. Over mogelijke verschillen in compatibiliteit en consistentie wordt van tevoren niet te moeilijk gedaan en gaat men ervan uit dat men kan compenseren voor een gebrek aan compatibiliteit en consistentie indien de uitvoering daar om vraagt.

Linked Data maakt de verwarring over betekenis een stuk minder groot door zich in eerste instantie te richten op wat is, de waarneming zo men wil. Dat wat is, wordt aangeduid met een URI, de identifier binnen Linked Data.

Metadata[bewerken]

Het hergebruiken van data moet ondersteund worden. Degene die de data wil hergebruiken, heeft behoefte aan informatie over de data. ‘Wanneer is de data gemaakt?’, ‘Wie maakte de data?’ en ‘Voor welke toepassing is de data gemaakt?’ zijn een aantal vragen waarop de ontwerper antwoord probeert te krijgen. De leverancier geeft deze informatie middels zogenaamde metadata: data over de data.

De metadata die het ontstaan van de data beschrijven, worden ook wel provenance data genoemd (Freire e.a. 2008). Provenance komt van het franse provenir wat ‘vandaan komen’ betekent.

Het kan voor de hergebruiker ook interessant zijn om te leren in welke situaties de data succesvol door iemand is toegepast. Deze data geeft de bruikbaarheid (usability) van data weer. Deze bruikbaarheid-data kan bijvoorbeeld een antwoord geven op de vragen: ‘Voor welk doel is de data toegepast?’, ‘Wat beschouwt men een succesvolle toepassing? en ‘Op welke wijze stelt men vast dat het doel werd behaald?’

Data die de bruikbaarheid aangeeft, kan ook voor Linked Data van grote waarde zijn. Deze data zegt veel over de kwaliteit van de data voor die toepassing. Deze data kan een goede voorspeller zijn voor succesvolle toepassing van de data binnen een andere toepassing. Voor Linked Data is recentelijk het PROV vocabulaire gestandaardiseerd door het W3C (Zie http://www.w3.org/TR/prov-overview). Dit vocabulair stelt ons in staat om provenance metadata in Linked Data uit te drukken.

Usability als a priori Provenance[bewerken]

Op dezelfde wijze als provenance metadata een indicatie geeft van de betrouwbaarheid en bruikbaarheid van data, stellen wij voor om bij de productie van data tevens het doel van de data expliciet te maken.

Een voorbeeld waarbij expliciete usability metadata nuttig kan zijn is de postcode. Postcodes zijn ooit in het leven geroepen om de distributie van post binnen Nederland efficienter te laten verlopen. Echter, zij worden steeds vaker gebruikt als algemene, fijnmazige geografische indeling. Dit kan leiden tot bijvoorbeeld de veronderstelling dat alle objecten in de BAG die een straat en huisnummer hebben, ook een postcode hebben. Dit is niet het geval. Gemeenten staat het vrij om objecten zoals transformatorhuisjes van een huisnummer te voorzien; zonder brievenbus krijgt het huisje echter geen postcode toegewezen.

Expliciete usability metadata stelt de producent van data in de gelegenheid om tot op zekere hoogte controle te houden over het gebruik van de data door derden, overheidsinstellingen danwel bedrijven of particulieren. Zo zou bijvoorbeeld aansprakelijkheid kunnen worden afgewezen voor conclusies die gebaseerd zijn op gebruik van de data dat afwijkt van het voorgeschreven gebruik.

Vergt dit dan verdergaande specificatie van de mogelijke operaties op de data? Niet noodzakelijkerwijs. Een organisatie die goed zicht heeft op haar taken, daaraan gekoppelde interne bedrijfsprocessen, en dus op de intern geproduceerde provenance informatie, kan deze informatie eenvoudig inzetten voor het aangeven van toegestane operaties. In het geval van overheidsinstellingen zijn deze taken veelal verankerd in wet en regelgeving. Wanneer taken uniek identificeerbaar zijn door middel van URIs, kan tevens compatibiliteit tussen de taken expliciet gemaakt worden.

Discussie[bewerken]

In de voorgaande secties beschrijven wij de aspecten die in zijn algemeenheid gelden voor het bruikbaar uitwisselen van data tussen organisaties (data interoperabiliteit). Data is altijd geproduceerd binnen een context, met een bepaald beeld van de wereld en met een doel: de data wordt geproduceerd voor het uitvoeren van een specifieke (overheids-) taak.

Linked Data is een uitermate flexibel middel voor het verhogen van interoperabiliteit door het uitwisselen en hergebruiken van globaal uniek geidentificeerde data items (resources). Provenance metadata, uitgedrukt als Linked Data, geeft een indicatie van de processen die ten grondslag lagen aan de productie van de data. Hierdoor ontstaat een beeld van de kwaliteit en betrouwbaarheid van data.

Provenance metadata kan gebruikt worden om een inschatting te maken van de bruikbaarheid. Om bruikbaarheid voor bepaalde doeleinden vast te stellen, is echter meer nodig. Op dezelfde wijze als processenworden geidentificeerd in provenance data, kan ook een usability profiel voor Linked Data worden gespecifieerd. Middels een dergelijk profiel geeft de producent van data aan voor welke doeleinden zij de data ter beschikking stelt.

Literatuur[bewerken]

Allemang, Dean & Hendler, James ‘Semantic Web for the Working Ontologist’, 2^nd edition, Morgan Kaufmann, 2011, ISBN 978-0123859655

Bonnet, Pierre ‘Master Data Management And Semantic Modeling’ Wiley-ISTE, 2010 ISBN 9781848211827

Charaudeau, Patrick ‘Les médias et l’information: l’impossible transparence du discours’ 2^ndedition, De Boeck, 2011

Freire, Juliana; Koop, David (Eds.) ‘Provenance and Annotation of Data and Processes’ Second International Provenance and Annotation Workshop, IPAW 2008, Salt Lake City, UT, USA, June 17-18, 2008 Series: Lecture Notes in Computer Science, Vol. 5272

Vygotsky, Lev ‘Play And It’s Role in The Mental Development of The Child’ in Voprosy psikhologii, 1966, No. 6 (vertaald door Catherine Mulholland) eerste publicatie in 1933

Boek/MackelenberghHoekstra

Inhoud