Boek 5/Blog: Rinke Hoekstra - linked data, zonder hoofdletters

< Boek 5

De afgelopen jaren heeft linked data een grote vlucht genomen. In Nederland niet in het minst door initiatieven zoals PLDN. Bedrijven en overheden kiezen steeds vaker het linked dataparadigma voor het communiceren van data en metadata.

Maar we zijn er nog niet. Het gebruik van linked data heeft veelal nog de vorm van datapublicatie: een selectie oorspronkelijke ‘legacy’ data wordt naar buiten toe blootgesteld als linked data. Hoewel dit een grote verbetering is ten opzichte van de vroegere situatie, met name door de globaal unieke identifiers, is linked data daarmee toch nog vaak de kers op de taart. Een extraatje, eerder dan een voorwaarde voor een efficiënte databedrijfsvoering.

Waarom is dit? Ik denk dat hier twee oorzaken aan ten grondslag liggen. In 1980 maakte Alan Newell een methodologisch onderscheid tussen vier verschillende niveaus waarop over computersystemen gesproken kan worden: het fysieke, het ontwerp-, het symboolen het kennisniveau. In linked data gaat het om een briljant idee op het kennisniveau - hoe informatie en kennis vervlochten is en betekenis ontstaat door onderlinge afhankelijkheid - dat een representatie kent op symboolniveau, waar we gebruikmaken van webtechnologie.

Communicatie over linked data vindt echter bij grote uitzondering op het kennisniveau plaats: zelden gaat er een presentatie, artikel of blog voorbij waarbij geen Turtle, SPARQL queries of URIs getoond worden.

De tweede oorzaak is een historische: het technologie­huis rond linked data is grotendeels naast bestaande technologie opgetuigd. Het datamodel van linked data zou speciale graph-databases vereisen, de huidige triple stores. Dit is waar, voor zover het noodzakelijk is om linked data grafen generiek te kunnen bevragen.

Het nadeel van deze aanpak is dat aansluiting met bestaande IT-infrastructuur stroef verloopt. De adoptie van het idee van linked data op kennisniveau lijkt te vereisen dat er tegelijkertijd een transitie op symboolniveau plaatsvindt: naast implementatiekosten is er een vrij steile leercurve en het nadeel van minder ‘volwassen’ technologie. Dit is niet waar.

De meeste toepassingen vragen een stabiel data­model waarvoor de flexibiliteit van een graph store niet noodzakelijk is. Recent onderzoek van Minh-Duc Pham en Peter Boncz aan het CWI en de VU laat zien dat linked data latente, stabiele structuren bevat die gebruikt kunnen worden om de performance van query-answering significant te verbeteren.

Voor verdere adoptie van linked data is het essentieel dat linked data haar weg vindt binnen bestaande ITinfrastructuur. Dit vraagt flexibiliteit van twee kanten. Inderdaad, linked data, zonder hoofdletters.

Rinke Hoekstra
Department of Computer Science, Vrije Universiteit Amsterdam -
Faculty of Law, University of Amsterdam
(www.rinkehoekstra.nl)