Boek/VanderheidenEtAl

< Boek

De erfgoedthesaurus in de kennisketen van het cultureel erfgoed

 

Auteurs

Patrick Mout (RCE)

Joop Vanderheiden (RCE)

Kees Hendriks (RCE)

Nico Verbeij (Verdonck Klooster & Associates)

 

De Rijksdienst voor het Cultureel Erfgoed (RCE) wil haar elektronische dienstverlening vernieuwen én de eigen openbare gegevens zoveel mogelijk ter beschikking stellen voor verrijking en hergebruik. Daarom koppelt de RCE zijn bronnen door middel van een gemeenschappelijke erfgoedthesaurus aan de bronnen in het erfgoedveld. Het geheel wordt voor hergebruik als open linked data beschikbaar gesteld aan private en publieke partijen. Deskundige partners in het erfgoedveld krijgen de gelegenheid mee te bouwen aan dit erfgoed-begrippenkader en kunnen met behulp hiervan hun eigen gedigitaliseerde collecties beter vindbaar maken. Leveranciers van informatieproducten (websites, apps, widgets) krijgen direct toegang tot de thesaurus en de daaraan gekoppelde informatie over allerlei erfgoedobjecten.

 

In deze casusbeschrijving gaan de schrijvers in op de visie van RCE met betrekking tot open linked data in het erfgoedveld. Vervolgens beschrijven ze de activiteiten en bevindingen tot nu toe op het terrein van de ontwikkeling van de Erfgoedthesaurus, de gekozen informatiearchitectuur, de standaarden en de datamodellering die worden gehanteerd, de ontsloten gegevensbronnen en de eerste voorbeeldapplicaties.

 

Er is extra aandacht voor de Erfgoedsuite, een certificering voor online tools die erfgoedpartijen helpt bij het bouwen en onderhouden van een eigen webpresentatie en het duurzaam opslaan van de eigen collectiedata. Door de inzet van de erfgoedthesaurus komen deze lokale collecties verbonden en nationaal beschikbaar. Een doorkijk naar de toekomst besluit deze bijdrage.

 

Werken aan de kennisketen
[bewerken]

De Rijksdienst voor het Cultureel Erfgoed (RCE) werkt aan een beter functionerende erfgoedzorg. Onder erfgoed verstaan we zowel het roerende als het onroerende erfgoed, van kunstcollecties tot cultuurlandschappen en van archeologische vondsten tot rijksmonumenten. Aan dit erfgoed werken musea en archeologische onderzoeksbureaus, heemkundekring vrijwilligers en monumenten ambtenaren. De zorg voor ons cultuurgoed is sterk afhankelijk van een beschikbaarheid van de juiste informatie op het juiste moment. Het kan gaan om informatie over een nieuwe subsidieregeling voor monumentrestauratie of informatie over de aard en betekenis van een archeologische vondst in een gebied waar een projectontwikkelaar plannen mee heeft.

 

In 2009 constateerde Minister Plasterk in zijn beleidsbrief Modernisering Monumentenzorg: ‘kennis is niet altijd even toegankelijk voor de naar kennis zoekende burger, gemeente of monumenteneigenaar’. Genoeg reden voor de RCE om een programma te starten gericht op de realisatie van een verbeterde kennisinfrastructuur die de modernisering van de monumentenzorg schraagt.

 

In het werken aan deze nieuwe infrastructuur formuleerde de RCE de volgende uitgangspunten:

  • Eenmalige opslag en meervoudig gebruik van de eigen RCE data die zoveel mogelijk als linked open data onder creative commons licenties wordt gedeeld.
  • Alle zoekacties op de data verlopen via semantisch gestructureerde metadata in één gemeenschappelijk Cultureel Erfgoed Begrippenkader: de Erfgoedthesaurus.
  • Een architectuur op basis van een drie lagen model, toepassing van open standaarden en (zoveel mogelijk) open source.
  • De bronhouder blijft altijd verantwoordelijk voor de eigen data en krijgt credits voor zijn bijdrage.

 

Het centrale thema is verbinden: van gegevensbronnen en organisaties, van mensen en ideeën. De RCE heeft de ramen en deuren geopend en werkt steeds meer samen met partijen en initiatieven die de erfgoedzorg verder brengen.

 

Drielagenmodel
[bewerken]

De RCE kennisinfrastructuur is ingericht op een drielagenmodel

 

B6-RCE-figuur-01-drie-lagen-model.jpg

 

Drie lagenmodel RCE kennisinfrastructuur

De bronnenlaag bevat de data van de RCE en andere erfgoedinstellingen. Deze bronnen worden lokaal beheerd en blijven onder de hoede van de bronhouder. In essentie is er voor koppeling niet meer nodig dan toegang via internet en de beschikbaarheid van metadata.

 

De verbindingenlaag koppelt de metadata van de bronnen aan de Erfgoedthesaurus. Deze thesaurus levert de termen voor de metadatering van de bronnen en wordt ingezet voor de terugvindbaarheid van de bronnen. Bovendien biedt de erfgoedthesaurus een beeld van het cultureel erfgoed domein.

 

Als sluitstuk van de architectuur fungeert de presentatieomgeving die de vorm heeft van allerlei elektronische diensten. Hier vinden we toepassingen die van de verbonden data gebruik maken zoals apps, widgets, websites e.d.. Deze eindgebruikerstoepassingen worden buiten de RCE ontwikkeld. Derde partijen, commercieel en ideëel, worden uitgedaagd om de verbonden data in producten voor hun gebruikers toe te passen.

 

De RCE richt zich in het werken aan de infrastructuur vooral op de inrichting van de bronnenlaag en de verbindingslaag. In de presentatie-omgeving zijn enkele pilots uitgevoerd (waarover later meer). De eigen bronnen van de RCE bestaan voornamelijk uit de registers van archeologische onderzoeken en vondsten en de rijksmonumenten. Centraal in de nieuwe kennisinfrastructuur staat de verbindingslaag en de daarin opgenomen erfgoedthesaurus. De RCE is verantwoordelijk voor het inrichten, beheren en ontsluiten van deze erfgoedthesaurus. Hoewel de RCE het voortouw neemt is dit werk bepaald geen solistische activiteit. De RCE richt zich vooral op de hoofdlijnen en op een ‘ondiepe’ inrichting van de hiërarchie. De specialisten in het veld stellen we in de gelegenheid om de verdere verdieping van het begrippenapparaat ter hand te nemen. Voor het werken aan de verbindingslaag is een speciaal cluster van medewerkers ingericht. In dit cluster (circa 4 fte) zijn onder andere informatiespecialisten actief die voorheen in de bibliotheek van het instituut werkzaam waren. Zij ontwikkelen de verbindingslaag, werken aan thesaurus structurering en uitbreiding, verbinden thesauri en verbinden de termen uit de Erfgoedthesaurus met brondata.

 

Crowd sourcing en de Erfgoedsuite
[bewerken]

In Nederland is heel veel expertise in het domein van het cultureel erfgoed, bij individuen en instellingen die zich hebben gespecialiseerd in bijvoorbeeld Molens, regionale archeologie, historische stuwen en sluizen of Saksische boerderijen. Om deze experts de ruimte te bieden om te participeren in de ontwikkeling van de gemeenschappelijke erfgoedthesaurus heeft RCE verschillende gereedschappen ingericht, variërend van het elektronisch kunnen ‘plakken van geeltjes’ op voorgestelde begrippenlijsten tot geavanceerd gereedschap om termen, beschrijvingen en hiërarchie toe te voegen of aan te passen. Er is overigens geen sprake van open crowd sourcing want de bijdragen aan de Erfgoedthesaurus zullen vaak op uitnodiging en in een aantal gevallen achter een wachtwoord hun beslag krijgen. Wij proberen zo wel optimaal gebruik te maken van de beschikbare kennis.

 

Het belangrijkste crowd sourcing instrument is de Erfgoedsuite (zie www.erfgoedsuite.nl). Dit is gecertificeerde software die als ‘software as a service’ beschikbaar is. De essentie van deze voorziening is dat hij aan de ene kant gespecialiseerde instellingen helpt om hun gedigitaliseerde collecties duurzaam te beheren en daaromheen eenvoudig een website te kunnen bouwen. Aan de andere kant krijgen deze instellingen direct de gelegenheid om voor de metadata gebruik te maken van de Erfgoedthesaurus. De objecten in de collectie zijn daarmee direct vindbaar geworden in de verschillende informatieproducten die gebruik maken van de RCE vindbaarheidslaag. De lokale gespecialiseerde instelling kan desgewenst ook een bijdrage leveren aan de uitbouw van de Erfgoedthesaurus.

 

De voordelen zijn duidelijk. De (doorgaans) kleine erfgoedinstelling krijgt de beschikking over deugdelijke state of the art software, duurzame opslag en een begrippen apparaat (de erfgoedthesaurus) waar de collectie mee gemetadateerd kan worden. De RCE ziet een nationale collectie ontstaan waarin steeds meer erfgoedinformatie op basis van de gemeenschappelijke thesaurus is terug te vinden. De projecten www.veenkoloniaalmuseum.nl en www.hethoogeland.com zijn eerste toepassingen van de erfgoedsuite

 

De Erfgoedthesaurus
[bewerken]

De erfgoedthesaurus is opgebouwd uit een verzameling concepten en hun onderlinge relaties. Ieder concept vormt de weerslag van één begrip. Met een begrip bedoelen we, al hetgeen zonder oordeel begrepen en gedacht kan worden. Daarbij heeft elk concept een uniek nummer (ID) en mag het maar in een betekenis één keer voorkomen in de thesaurus.

 

Een concept bestaat uit de volgende onderdelen:

  • naam, bij voorkeur een zelfstandig naamwoord m.u.v. activiteiten en personen
  • scope note, omschrijving van de term in maximaal 50 woorden
  • item type, onderwerpstype waartoe de term behoort
  • facet, waartoe de term behoort
  • termtype, voorkeursterm of niet-voorkeursterm
  • concept id, uniek nummer
  • bron, eigenaar/bron van de term
  • bron id, broncode term

 

Een concept kan meer items bevatten, zoals:

  • synoniemen, termen met gelijke betekenis
  • taalvarianten, termen in andere taal of dialect
  • varianten in schrijfwijze, termen in enkelvoud, als werkwoord
  • use, bij niet-voorkeursterm verwijzing naar de voorkeursterm
  • broader term, ouderterm
  • narrower term, kindterm
  • related term, associatieve term

 

Een voorbeeld van het concept ‘Stellingmolen’ in de thesaurus Molentypen.

Een voorbeeld van het concept ‘Stellingmolen’ in de thesaurus Molentypen.

 

De lijsten en thesauri in de verbindingenlaag zijn opgedeeld in facetten. Deze facetten zijn voor een deel gebaseerd op de facetten die in gebruik zijn bij Art and Architecture Thesaurus (zie www.aat-ned.nl/home). Voorbeelden van facetten in de erfgoedthesaurus zijn:

  • Abstracte begrippen: bijvoorbeeld ‘restauratie’ of ‘onderzoek’
  • Fysieke eigenschappen: ‘formaat’ of ‘materiaal’
  • Topografie: ‘gemeente’of ‘toponiem’
  • Actoren: ‘architect ’of ‘vondstmelder’
  • Activiteiten: ‘restaureren’ of ‘opgraven’
  • Stijlen en Perioden: ‘Romantiek’ of ‘Prehistorie’
  • Objecten: ‘paleis’ of ‘aardewerk’

 

Om een werkbare en overzichtelijke taxonomie in te richten worden de facetten ingedeeld tot een maximum van drie niveaus. De facetten en twee onderliggende niveaus vormen samen de kapstok waaraan lijsten op een gestructureerde manier kunnen worden aangehangen. Het structureren van de lijsten (bijvoorbeeld door het aanbrengen van meer niveaus) gebeurt in samenspraak met experts uit het betreffende kennisdomein.

 

Voor een semantische modellering zijn deze facetten niet vereist. Zij helpen ons wel in het presenteren van ons domein en in het hanteren van aangeboden trefwoordlijsten. Deze lijsten zijn vaak hybride en bevatten ook veel termen die al behandeld zijn. Om een goede vergelijking uit te kunnen voeren verdelen we de termen eerst per facet om vervolgens binnen facet een vergelijking uit te voeren.

 

De erfgoedthesaurus is ‘werk in uitvoering’. In het erfgoeddomein zijn in het verleden veel verschillende (analoge) lijsten samengesteld. Nu eens als register voor een publicatie dan weer als een volwaardige deelgebied thesaurus. Deze lijsten vormden het startpunt. Ze zijn ontdubbeld en aangevuld met bijzondere lijsten die door derden zijn ontwikkeld. Daartoe is in enkele gevallen ook een beroep gedaan op commerciële uitgevers die papieren versies uitbrengen van deeldomein lijsten die voor de sector gezaghebbend zijn en een belangrijke aanvulling vormen op wat al beschikbaar is.

 

In het archeologische domein konden we een vliegende start maken. Sinds einde jaren 80 werkt men in deze sector al met het zogenaamde Archeologisch basisregister. Dit register bestaat uit een aantal gestandaardiseerde lijsten waarmee archeologische onderzoeken, vondsten en sporen zijn beschreven. Na een actualisering die we in 2011-2012 uitvoerden is voor dit onderdeel nu een complete domein thesaurus beschikbaar.

 

Linked open data
[bewerken]

Met het ontwikkelen van het Referentienetwerk Erfgoed werkt de RCE aan voorzieningen waarmee de erfgoed-informatie van de RCE en van derden op het web kan worden gepubliceerd en terug gevonden in de vorm van linked open data. Voor de RCE is ook de duurzaamheid in dat terugvinden van groot belang. Hiertoe worden aan de linked open data uri’s persistent identifiers toegekend.

 

Met toekenning van een persistent identifier krijgen elk concept in de Erfgoedthesaurus en elk contentitem op het web een uniek nummer dat dit digitale object duurzaam representeert. Zo wordt voorkomen dat metadata niet meer leiden naar de bedoelde content, omdat de weblocatie of de naam van het contentitem is veranderd. Het persistente nummer verwijst altijd naar het digitale object, ongeacht de veranderende onderliggende ‘locator’ technologie. Hiertoe wordt een register bijgehouden waar eventueel veranderde weblocaties moeten worden gemeld. Op basis van de Handle-technologie (standaard) is een webservice ontwikkeld, en beschikbaar, voor het toekennen, beheren en terughalen van persistent identifiers vanuit de collectieregistratie en -publicatiesystemen. Deze webservice is succesvol getest bij de RCE partners Instituut voor Beeld en Geluid en het Nationaal Archief.

 

In de Erfgoedthesaurus passen we Linked Data toe door de concepten uit de erfgoedthesaurus in RDF-triples op te slaan en beschikbaar te stellen. We maken dus gebruik van de internationale standaardtechnologie SKOS Core. SKOS maakt gebruik van Resource Description Framework of RDF.

 

RDF is een model, dat uitgedrukt wordt in XML en uitgaat van drie onderdelen: onderwerp-eigenschap-waarde, in RDF notatie beschreven als een triple: subject-predicate-object. Met een RDF-triple wordt een uitspraak gedaan over een eigenschap van een object, persoon, begrip of bron.

 

Een voorbeeld:

  • Jacob van Campen bouwde het Paleis op de Dam.
  • RDF-triple: subject: Jacob van Campen | predicate: bouwde | object: Paleis op de Dam

 

Bij het beschrijven op basis van RDF moet er duidelijk verschil worden gemaakt tussen het beschrijven van een object en een begrip. Met een object bedoelen we een fysiek voorwerp of bouwwerk. Een fysiek object kan zijn het werkelijke object zoals het Paleis op de Dam aan Damplein 1 in Amsterdam, maar kan ook zijn een boek over, een foto of andere verbeelding van het Paleis op de Dam. Daarnaast verstaan wij onder objecten niet alleen levenloze dingen maar ook fysieke personen, zoals Jacob van Campen of Daniël Stalpaert.

Met een begrip bedoelen we de verbeelding van een object in algemene zin. Een voorbeeld is het begrip: Paleizen. Een paleis staat niet voor een specifiek object, maar is een categorisering van alle bestaande gebouwen die vallen onder het gebouwtype Paleizen.

 

Naast het vastleggen van concepten in de Erfgoedthesaurus is het belangrijk om te definiëren welke relatietypen (in RDF-taal: predicates) er worden gebruikt tussen termen ofwel RDF-subject en RDF-object. En tot welk specifiek onderwerpstype (in RDF-taal: item type) een RDF-subject of RDF-object hoort. Dit uitgangspunt betekent dat één concept maar tot één item type kan behoren.

 

Voorbeeld:

  • De persoon Shakespeare is auteur van het toneelstuk Hamlet
  • RDF-triple wordt dit beschreven als: PersonType: Shakespeare | isAuthorOf | NameType: Hamlet

 

‘PersonType’ en ‘NameType’ zijn in dit voorbeeld item types, ‘isAuthorOf’ is in dit geval de predicate.

Naast het feit dat ieder subject (concept) meerdere eigenschappen of predicates kan hebben, kan ieder object ook zelf een subject zijn.

 

Erfgoedthesaurus: de tooling
[bewerken]

Voor het beheer van de Erfgoedthesaurus maakt RCE gebruik van tooling van het Delftse bedrijf Trezorix. Deze tooling is webgebaseerd en is ontwikkeld voor het inrichten en onderhouden van thesauri, het gemakkelijk kunnen koppelen van kennisbronnen op het web, en het op gemakkelijke en eenduidige manier vindbaar maken van alle verschillende soorten content in die bronnen.

 

Zoals in onderstaande afbeelding te zien is, onderscheid de Referentie Netwerk Architectuur omgeving drie lagen:

 

B6-RCE-figuur-03-RNA-omgeving.jpg

De RNA omgeving voor het beheer van de Erfgoedthesaurus, Trezorix BV Delft

  • Datalaag. Aan de onderkant bevindt zich een datalaag. Hierin bevinden zich de bronnen: databases, filesystemen, webpagina's enzovoort. Deze bronnen zijn bereikbaar via het internet. Deze laag vertegenwoordigt het aanbod van informatie.
  • Applicatielaag. Aan de bovenkant bevindt zich een laag met applicaties, die gebruik willen maken van het informatie-aanbod uit de onderste laag. In deze applicatielaag wordt de vraag bepaald.
  • Referentielaag. In de tussenliggende laag bevindt zich een netwerk van referenties. Deze referentielaag dient als een soort makelaar tussen de vraag- en de aanbodzijde, door hoogwaardige ontsluitingsfunctionaliteit te koppelen aan gedetailleerd overzicht van de beschikbare data.

 

De voor vindbaarheid belangrijke data uit de bronnen wordt als metadata-records via connectoren naar de referentielaag gebracht. Deze metadata-records worden vanwege hun herkomst ook wel bronrecords genoemd. Ze worden gekoppeld aan thesaurusstructuren, die als het ware de landkaart vormen van het kennisdomein waaraan het netwerk gerelateerd is.

 

Applicaties raadplegen via application programmers interfaces (API's) het referentienetwerk om heel gericht informatie uit de bronnen te kunnen halen. Een tweede manier van bevragen van de Referentielaag gaat via het stellen van SPARQL-queries.

 

De referentielaag plus de interfaces die er zijn voor communicatie en uitwisseling met beide andere lagen noemen we een RNA-omgeving. Op deze omgeving is gereedschap voor redactionele bewerking van de thesaurus beschikbaar. Ook hulpmiddelen voor import en datatypering en -modellering zijn vervaardigd.

 

De voorbereiding en batch bewerking van bestanden vindt vooral plaats in Microsoft Excel. Macro’s ondersteunen dit proces.

 

Pilots
[bewerken]

De erfgoedthesaurus is work in progress. Een aantal lijsten is ingericht, met name in het archeologische domein. Deze zijn te vinden via www.erfgoedthesaurus.nl. Hier is de mogelijkheid om commentaar te plaatsen in de vorm van geeltjes (zie pennetjes rechts bovenin bij de desbetreffende onderdelen). Ook is een tabblad ‘erfgoedsuite partners’ beschikbaar. De collecties van het Groninger Molenhuis en Openlucht Museum Hogeland worden getoond naast hun inspanningen op het terrein van structuring van hun eigen collectie met inzet van de erfgoedthesaurus.

 

Om de werking van de thesaurus bij ‘zoeken en vinden’ te demonstreren is een proof of concept ingericht met een volledige dataset van alle beschikbare archeologische onderzoeken http://archeologie.erfgoedthesaurus.nl/ Met behulp van zoekcriteria en de kaart kan de gebruiker de onderzoeken vinden met de daarbij behorende vondsten en grondsporen.

 

Een vergelijkbare exercitie heeft plaatsgevonden voor de presentatie van rijksmonumentale molens: http://molens.erfgoedthesaurus.nl. De ‘Molenwidget’ introduceert de rijksmonumentale molens en biedt (achter een inlog) leden van de molencommunity de mogelijkheid om te werken aan de molenthesaurus.

http://rce.webgispublisher.nl/?map=Erfgoedatlas-concept-v4 biedt een eerste versie van de webgispublisher omgeving die de RCE zal inzetten om de geo halffabrikaten te ontwikkelen die dan als eindfabrikaat bijvoorbeeld terecht komen op www.atlasleefomgeving.nl.

De website http://bit.ly/16zo2V2 [te bekijken met Google Chrome] biedt een tussentijdse oplevering van de linked open data demonstrator waarin Instituut voor Beeld en Geluid en de RCE samenwerken.

 

En verder
[bewerken]

In de komende periode werkt de RCE verder aan de modernisering van de kennisinfrastructuur voor de monumentenzorg. De Erfgoedthesaurus en de RNA-omgeving spelen daarin letterlijk een centrale rol. De verbetering van de vindbaarheid van erfgoedobjecten en verdere uitbouw van de Erfgoedthesaurus hebben binnen RCE een hoge prioriteit. Voor de archeologen werkt RCE aan een vernieuwing van het gemeenschappelijke archeologische informatiesysteem (Archis). Voor het beheer van de rijksmonumenten en het beschikbaar stellen van alle kennis over deze monumenten ontwikkelt RCE een nieuw Monumenten Registratie Systeem. Deze projecten kunnen niet zonder de Erfgoedthesaurus. De RNA-omgeving gaat ook in de RCE-zaken een belangrijke rol spelen. Om subsidie-aanvragen, Archeologische onderzoeksmeldingen en aanwijzingen van rijksmonumenten nog beter te ondersteunen werkt RCE aan een ‘zaakontologie’. Een op de GEMMA gebaseerde RDF modellering die o.a. het zoeken en vinden van zaakgegevens gaat verbeteren.

 

In het DEN-project Erfgoed & Locatie participeert de RCE in de uitwerking van een semantische koppeling tussen een erfgoed geo-infrastructuur en woordsystemen. Zodoende krijgt ook de geocomponent in de verbindingslaag een verdere verdieping. DEN: www.den.nl.