Boek/Melder

< Boek

Auteur: Lian Pattje
Interview met: Willem Melder, projectleider en software engineer, Nederlands Instituut voor Beeld en Geluid
Datum: 25 april 2013


 

Linken van data is complex maar leerzaam proces

Vanuit het project Digitale Collectie Nederland wilden we onder andere de collecties van het Nederlands Instituut voor Beeld en Geluid en de Rijksdienst voor het Cultureel Erfgoed (RCE) verzamelen en doorzoekbaar maken. Ons doel is om een nationaal verzamelpunt te creëren. Door context te bieden aan onze collecties en door te linken naar andere collecties, willen we de archieven hergebruiken, verbonden raken met andere archieven en uiteindelijk zelf meer gevonden en bezocht worden', aldus Willem Melder, projectleider en software engineer van het Nederlands Instituut voor Beeld en Geluid. 'En zo zijn we het project Demonstrator Linked Data gestart.'

'Twee collecties van twee instellingen, met ook nog eens twee verschillende thesauri aan elkaar verbinden, uitwisselbaar en doorzoekbaar maken. Daar wilden we mee beginnen', legt Melder uit. 'Elke erfgoedinstelling zoals RCE, Naturalis en ook Beeld en Geluid heeft een eigen thesaurus. Een thesaurus is een gecontroleerde woordenlijst die gebruikt wordt om het exacte woord voor een voorwerp (een bepaalde vakterm) te vinden. Dus Naturalis heeft een thesaurus voor de biodiversiteit, NIOD een oorlogsthesaurus en wij hebben een audiovisuele variant.'

'Al snel bleek dit makkelijker bedacht dan te realiseren. Er bleken veel haken en ogen te zijn. Je kunt namelijk niet rechtstreeks linken van de ene naar de andere collectie. Want de ene organisatie hanteert een open formaat en de andere een gesloten. En diverse organisaties spreken verschillende "talen". Zo gebruiken wij SKOS, een taal die op RDF gebaseerd is, waar iedereen bij kan en die uitwisselbaar is. Het is dus de kunst om de kennis van verschillende domeinbeheerders in RDF weer te geven met URI's (Unique Resource Identifiers) en uitgedrukt in standaard dataschema's , zodat je precies weet naar welke informatie verwezen wordt. We moeten leren om onszelf uit te drukken in een universele taal. Maar jarenlang heeft iedereen dat op zijn eigen manier gedaan...'

Willem Melder vertelt dat ze er gaandeweg achter kwamen dat zowel in de thesaurus van de RCE als in die van Beeld en Geluid "locaties" zijn verzameld. 'Bij ons zijn die volgens een bepaalde structuur verzameld,maar die van de RCE bevat veel meer geografische gegevens met meer niveaus. Dus beide thesauri hebben een label "Utrecht - Nederland", alleen de ene thesaurus heeft ook "Utrecht - plaats" en "Utrecht - provincie". Dus dan weet je nog niets. Welk Utrecht wordt bedoeld? Het is belangrijk om de juiste relaties te leggen tussen twee structuren. En het lastige daarvan is dat die begrippen door verschillende mensen met verschillende ideeën gemaakt zijn. Ze bevatten veel impliciete kennis van die mensen. Dus automatiseren is moeilijk, want het gaat om veel "concepten" en termen.'

'Verder ontdekten we dat het lastig bleek om de ene aan de andere collectie te linken, omdat de RCE een beschrijving van een monument had en wij een video. Hoe koppel je die? We kwamen op het idee om de geografische informatie te gebruiken, van zowel het monument als de video, zodat we de erfgoedlocaties konden tonen op een kaart', aldus Melder. 'Op die manier maakten we het mogelijk om de collecties te linken via de gemeenschappelijke kenmerken van de locatie. Voor het tonen van een exacte locatie heb je echter meer nodig dan alleen een plaatsnaam. Onze data was eigenlijk niet precies genoeg. Dus besloten we voor elke locatie de bijbehorende longitude en latitude - dat zijn de x- en y-coördinaten die ook voor GPS worden gebruikt -te gebruiken. De crux van linked data is dat je heel precies moet omschrijven en dus moet je heel goed weten waar je het over hebt. Alleen aan "Amsterdam" heb je niets, want waar heb je het dan over? De plaats, de provincie of misschien wel een hockeyclub? Je moet dus de exacte locatie toevoegen aan een object.'

Melder: 'Een ander voorbeeld is dat de video's uit onze open beeldencollectie een veld bevatten met "plaatsnaam", bijvoorbeeld Kinderdijk. Dan weet je alleen nog niet wat precies bedoeld wordt. Het is een letterlijke term. Wat we gedaan hebben, is het label "Kinderdijk" vervangen door een resource description en die resource hebben we een URI gegeven, zodat je iedere resource uniek kunt onderscheiden. Voor Kinderdijk is dat bijvoorbeeld in onze GTAA thesaurus (Gemeenschappelijke Thesaurus Audiovisuele Archieven): http://data.beeldengeluid.nl/gtaa/37605. Deze URI is te resolven, zodat een weergave van het concept op het web beschikbaar is. Elke video bevat een  verwijzing naar een concept, een resource. En een resource bevat een geografische locatie. Op die manier kunnen we een video op een kaart "pinnen".  Je weet dan nog steeds niet de precieze link tussen de video en die plaats, maar je weet dat er een relatie is. Als je dat voor alle collecties doet, kun je voor elke plek interessante erfgoedobjecten bepalen.'

'We hebben al doende geleerd dat het heel belangrijk is om een URI-strategie te hanteren binnen  onze collectiesystemen. Door URI's te gebruiken, kun je op een unieke manier naar een resource verwijzen en ze daardoor uniek onderscheiden. Het belangrijkste dat ik van deze pilot heb geleerd is dat de informatie die in erfgoedcollecties ligt opgeslagen nog te vaak alleen binnen het eigen systeem te gebruiken is. Om de informatie als linked data aan te bieden, en daarmee de collectie in potentie te linken aan de rest van de wereld, moet nog aan de data gesleuteld worden. De genoemde URI-strategie is het begin. Ook het uitdrukken van de data in RDF en universele gebruikte schema’s is een belangrijke stap. Wat we nog niet genoemd hebben, is dat de data bij voorkeur ook als open data beschikbaar moet zijn. Dan kan er ook daadwerkelijk door de rest van de wereld gewerkt kan worden aan links tussen erfgoed wereldwijd.'