Details Seminar Thesauri Best Practices

Terug naar de hoofdpagina

De rol van thesauri in datamanagement[bewerken]

Data is de nieuwe haarlemmerolie. Organisaties willen datagedreven worden en hun beslissingen baseren op feiten. Ze willen kunstmatige intelligentie, machine learning en deep learning inzetten om diepere inzichten te halen uit hun data. Dit alles veronderstelt dat duidelijk is wat de data betekent en juist daar gaat het vaak fout. Woorden en hun definitie zijn de basis voor datamanagement. Danny Greefhorst zal een overzicht geven van datamanagement en de rol van thesauri daarbinnen. Hij zal vanuit zijn ervaringen laten zien hoe thesauri praktisch kunnen worden ingezet.

Danny Greefhorst is directeur van ArchiXL en actief als enterprise-architect en consultant op data-, informatie- en kennisintensieve vraagstukken. Hij is voorzitter van de interessegroepen architectuur en kritisch denken van informatie van het Koninklijke Vereniging van Informatieprofessionals en voorzitter van Stichting Digital Architecture. Hij is ook auteur van boeken en artikelen op het gebied van digitale transformatie en enterprise-architectuur.

Thesauri van de KB op data.bibliotheken.nl[bewerken]

Sommigen beweren dat de rol van thesauri in dit tijdperk van Google en fulltext-zoeken uitgespeeld is. Anderen denken dat op Artificial Intelligence-gebaseerde algorithmen thesauri in de nabije toekomst overbodig zullen maken. Hoe dan ook lijkt het er op dat de rol en betekenis van thesauri door diverse technische ontwikkelingen aan het veranderen is. Binnen de linked data-publicatieomgeving van de KB, data.bibliotheken.nl worden een aantal traditionele thesauri toegepast. Juist de toepassing van thesauri in een linked data-context lijkt ze een nieuw leven in te kunnen gaan blazen. In deze presentatie dit geïllustreerd worden aan de hand van voorbeelden op data.bibliotheken.nl.

René Voorburg werkt sinds 2009 bij de KB, de nationale bibliotheek. Hij is daar productmanager van de voorzieningen die onder andere het fundament vormen voor de website Delpher.nl. Ook de linked data-omgeving data.bibliotheken.nl maakt daar onderdeel.

Eenheid van taal in de zorg met SNOMED CT[bewerken]

Snelle en ondubbelzinnige uitwisseling van gegevens is in de zorg van levensbelang. Een belangrijke voorwaarde hiervoor is Eenheid van Taal. Nictiz probeert Eenheid van Taal in de zorg te bevorderen door gebruik van nationale en internationale terminologiestelsels te stimuleren.
De meest omvangrijke en complexe van deze terminologiestelsels is SNOMED CT, een internationaal medisch terminologiestelsel dat een verzameling standaardtermen met hun synoniemen bevat. Naast een referentieterminologie is SNOMED tevens een OWL-ontologie: rijke structuur is bij uitstek geschikt om analyse en meervoudig gebruik van de vastgelegde informatie te ondersteunen.

Feikje Hielkema-Raadsveld, expert medische terminologie bij Nictiz met een achtergrond in semantic web-technologie, werkt aan het beheer van de Nederlandse editie van SNOMED CT. Zij geeft advies over het gebruik van terminologiestelsels in de zorg en is onder andere betrokken bij Eenheid van Taal in antibioticaresistentie.

De bruikbaarheid van thesauri binnen de RCE Linked Data Voorziening[bewerken]

Bij de registratie of beschrijving van objecten of concepten botst men vaak op het probleem van de dubbelzinnigheid van data. Hoe lost je dit op en zorg je voor het beter doorzoekbaar van je Linked data? Kortom hoe verbeter je dataprecisie en volledigheid binnen een zoekopdracht? Patrick vertelt op welke wijze thesauri worden ingezet om deze verbeterslag te maken binnen de informatiestructuur van de RCE. Daarbij gaat hij specifiek in op het RCE Linked data model; de inrichting van de Cultuurhistorische thesaurus en het referentienetwerk en geeft hij een korte demonstratie van het thesaurusbeheersysteem PoolParty en laat hij in GraphDB zien hoe de thesaurus is ingebed in de linked data voorziening.

Patrick Mout is werkzaam als adviseur bedrijfsvoering binnen de RCE. Hij heeft meer dan 25 jaar ervaring in datacuratie en thesaurusbouw in zijn rol als senior informatiespecialist en Linked data modelleur.

Verbinden van thesauri[bewerken]

In sommige toepassingen is het handig om termen uit de ene thesaurus te verbinden met gerelateerde termen uit een andere thesaurus. Voor grote thesauri is dit geen triviale opgave. In deze presentatie ga ik in op ons onderzoek om dit proces deels te automatiseren, en ga ik dieper in op de voor en nadelen van de verschillende aanpakken. Een concrete toepassing die uit dit onderzoek voortgekomen is, is Spinque's CultuurLINK. Deze applicatie is ontwikkeld voor instellingen voor cultureel erfgoed om hen te helpen hun vocabulaires, zoals thesauri en termenlijsten, te verbinden met de Nederlandse cultureel erfgoedhub. De Hub bevat thesauri van het Nederlands Instituut voor Beeld en Geluid, Naturalis, RCE en Getty. Met CultuurLINK upload je je vocabulaire, selecteer je een doel uit de Hub en bouw je je unieke linkstrategie.

Jacco van Ossenbruggen is verantwoordelijk voor de onderzoeksgroep "User-Cenric Data Science" bij de Vrije Universiteit Amsterdam en het onderzoek "Information Access" bij het Centrum voor Wiskunde en Informatica.

De doorontwikkeling en het beheer van de Aquo thesaurus[bewerken]

Aquo is de uniforme taal voor de uitwisseling van gegevens binnen de watersector. De Aquo-standaard maakt het mogelijk om op een uniforme manier gegevens uit te wisselen tussen partijen die betrokken zijn bij het waterbeheer en draagt daarmee bij aan een kwaliteitsverbetering van het waterbeheer. Het eenvoudig en eenduidig delen van informatie leveren tijd- en geldwinst op. Koos Boersma vertelt over de doorontwikkeling van de Aquo standaard en de wijze waarop het beheer van de thesaurus is ingericht.

Koos Boersma is werkzaam voor Informatiehuis Water. Als informatie-architect is hij en mede verantwoordelijk voor het beheer van de Aquo-standaard.

Samenwerken aan de nieuwe PLDN Linked Data Thesaurus[bewerken]

Bij het zoeken naar een goede Linked Data Thesaurus kwamen we tot de conclusie dat die er nog niet is. Wel zijn er wat verouderde glossaries. Hoog tijd dus om dit vanuit de PLDN-community op te pakken en een goede actuele versie te maken. Uitgangspunten waren, hergebruik zoveel mogelijk wat er al is van bijv. DBpedia en Wikidata, verwijs zoveel mogelijk naar de officiële bronnen van bijv. W3C en Forum Standaardisatie, houd het simpel, de nadruk moet vooral liggen op het makkelijk kunnen vinden van definities en aanvullende gerelateerde informatie en werk zoveel mogelijk in het Engels en waar nodig in het Nederlands. Veel Linked Data termen zijn Engelstalig, maar we hebben ook een aantal typische Nederlandse uitdrukkingen. Pieter van Everdingen zal in zijn presentatie een eerste Bèta-versie van de PLDN Linked Data Thesaurus laten zien, die we binnen de PLDN-community voor de zomervakantie willen uitwerken naar een goede 1.0 versie.

Pieter van Everdingen is Community Manager van Platform Linked Data Nederland (PLDN) en werkt als zelfstandig werkend adviseur ook aan Linked Data projecten die hij bij klanten uitvoert. Hij heeft ruim 20 jaar ervaring als Senior Enterprise en Data Architect in verschillende sectoren en veelal in internationale omgevingen en is vaak nauw betrokken bij het definiëren van de ICT- en Data-strategie van organisaties, bij business case ontwikkeling, bij proof of concepts en pilots en bij de realisatie van robuuste, duurzame en goed onderhoudbare ICT-oplossingen.


Terug naar de hoofdpagina