Boek 5/Interview: Frank van Harmelen (Vrije Universiteit Amsterdam)

< Boek 5

"Wat betreft Linked Data doet Nederland het zeker goed"

Frank van Harmelen DEF.jpg

Een uitgave over Linked Data in Nederland kan niet zonder een gesprek met de meest geciteerde wetenschapper in ons land op dat gebied: Frank van Harmelen. Hij vindt dat wij hier in Nederland het zeker goed doen als het gaat om Linked Data, maar heeft en passant nog wel wat wensen.

Het zal rond 2007 zijn geweest dat Frank van Harmelen, informatica-hoogleraar aan de Vrije Universiteit Amsterdam en onder meer lid van de Europese Academie van Wetenschappen, pas echt in de gaten kreeg dat Linked Data groter was dan hij tot dan toe had gedacht en ook echt zou kunnen gaan werken. Aanleiding was de International Semantic Web Conference, die dat jaar gehouden werd gehouden in Busan, Zuid-Korea. “Vanuit de VU waren we sinds 1999 al wel bezig met het onderwerp, maar de eerste jaren was dat vooral academisch georiënteerd. Het was vooral een onderzoeksproject. Pas na 2007 kreeg ik eigenlijk pas goed in de gaten dat ook externe partijen zogenoemde knowledge graphs begonnen te maken. Met name in de hoek van de cultuur en de media gebeurde er veel. Ik weet nog dat ik ademloos heb zitten kijken naar wat de Britse omroep BBC er mee deed en ook Beeld en Geluid in Nederland was wat dat betreft goed bezig.”

Inmiddels zijn we tien jaar verder maar is Linked Data nog niet echt mainstream. Frank van Harmelen vindt dat dat vooral te maken heeft met het ontbreken van voldoende trainings- en communicatiemogelijkheden. “Toch ben ik steeds weer verbaasd als ik hoor en zie welke organisaties inmiddels Linked Data gebruiken. Dat aantal stijgt de laatste tijd zo snel, dat ik het niet meer kan bijhouden.”

FAIR-data[bewerken]

Dat er, ondanks de schijnbaar hoge drempel, toch vaart zit in de ontwikkeling van Linked Data, bewijzen ook de stappen die in internationaal verband worden gemaakt. Opmerkelijk is dat daarbij steeds vaker de term FAIR-data (Findable, Accessible, Interoperable, Reusable) wordt gebezigd. Ook Frank van Harmelen ziet dat. “De Europese Commissie heeft het in hun beleidsstukken nu ook over FAIR-data. Zo staat in de nieuwe richtlijnen voor onderzoeksdata, die halverwege 2016 zijn opgesteld, bijvoorbeeld zwart op wit dat onderzoekers moeten gaan werken volgens de princi­pes van FAIR-data. En ook tijdens de laatste top van de G20, de economische grootmachten in de wereld, werd het onderwerp behandeld en afgetikt. Dat zegt wel wat, want daar staan wel de handtekeningen onder van mensen als Obama en Merkel. Oké, zij zullen het zelf niet snappen, maar de mensen die er vlak onder zitten, snappen het blijkbaar wel. Wat mij betreft gaat FAIR-data over de doelen en Linked Data is de meest volwassen manier om die doelen te bereiken.”

Als het gaat over Linked Data , is er één ding dat Frank van Harmelen specifiek wil benoemen. Dat is de maatschappelijke discussie die gevoerd zou moeten worden over het delen van data en privacy. Privacy is niet specifiek voor Linked Data, maar Linked Data maakt de discussie erover wel zichtbaarder en daar mee mogelijk gemakkelijker. “Dat betekent dat je niet met droge ogen met Linked Data bezig kunt zijn en dan zeggen dat je met die privacydiscussie niks te maken hebt.”

“De PLDN-community is iets waar veel landen jaloers op zijn”

LOD Laundromat[bewerken]

Op 27 juni 2016 hield Frank van Harmelen een presen­tatie op het PLDN-congres te Eindhoven, waar hij de balans opmaakte van de ontwikkeling van Linked Data. Wat is er gerealiseerd en waar liggen de uitdagingen? Dat resulteerde in een Done-lijstje en een ToDo-lijstje (zie verderop). Een item dat zowel op het ToDo-lijstje van Frank van Harmelen staat, maar ook op het Done-lijstje, is de wens om meer Linked Data online te krijgen. Op dat gebied zijn er de afgelopen jaren in Nederland grote stappen gezet. Debet daaraan is onder meer LOD Laundromat, een toepassing die uit de koker komt van het onderzoeksteam van de VU Amsterdam en ervoor zorgt dat bestaande Linked Data beter vindbaar is en wordt verbeterd. Van Harmelen is supertrots op de toepassing. “Als er iets is wat lijkt op de Google van Linked Data, dan hebben wij die in Amsterdam. De LOD Laundromat. Een volgende ontwikkeling is het combineren van Linked Data met machine-learning. Die twee zijn complementair aan elkaar, en naar beide kanten toe: met de semantische kennis in Linked Data kan machine-learning slimmer worden gemaakt, met betere resultaten tot gevolg. Aan de andere kant kan met machine-learning meer Linked Data worden gegenereerd.”

Streaming data[bewerken]

Eén van de dingen die nog op het ToDo-lijstje staat van Frank van Harmelen, zijn tools voor streaming data. “Met streaming data heb je het over data die continu binnenkomt en verandert. Uit sensornetwerken bijvoorbeeld. Met hoge frequentie komen daar duizen­den, of honderdduizenden gegevens, per seconde binnen en daar wil je een semantische interessante analyse op kunnen doen. Smart cities is typisch zo’n toepassing waar je hoogfrequente gegevens, bijvoorbeeld over weer of verkeer, binnenkrijgt en waarbij je al die gegevens ook wilt combineren. Dat is niet meer data waar je elke dag een update op doet, maar dat is data die constant stroomt. Op dit moment zitten wij nog erg in een denkkader van betrekkelijk statische knowledge graphs, die met een lage frequentie veranderen. De vraag is wel hoe breed de uitdaging van die streaming data is. Er zijn sommige gebieden waar dat echt telt. Bijvoorbeeld als het gaat om smart cities of als je het hebt over Internet of Things. Dat zijn typisch toepassingsgebieden waar die streaming data erg belangrijk is. Maar in mijn visie is het niet een universeel probleem. Het is voor sommige gebieden wel een probleem en voor andere niet. Dat zullen we moeten uitzoeken.”

Nederland vs. de rest[bewerken]

Als gekeken wordt naar de rest van Europa, en de rest van de wereld, dan doet Nederland het niet slecht als het gaat om Linked Data. Zeker niet als gekeken wordt naar het academisch niveau. Dat vindt Frank van Harmelen ook. “Nederland doet het zeker goed. Sowieso doen wij het in Europa goed. Je zou ook kunnen zeggen dat het een van de weinige gebieden in de informatica is waar Europa vooroploopt. Als het gaat om Linked Data zijn ze ook in Engeland goed bezig op academisch- en onderzoeksniveau, maar dat geldt ook voor landen als Slovenië, Duitsland, Italië en Spanje. Het ligt iets anders bij de mensen die geld verdienen met de tooling die gebruikt wordt. Je ziet met name dat er nog ‘witte vlekken’ liggen bij de tools voor het maken van links tussen Linked Data. Ook wat betreft de overheid worden er, volgens Van Harmelen, in Nederland de nodige serieuze stappen gemaakt. “De (semi-)overheid loopt voorop. Een goed voorbeeld vind ik het Kadaster, dat de laatste jaren flink aan de weg heeft getimmerd heeft met het publiceren van basisregistraties op het gewenste vijfsterrenniveau. Een groot aantal andere overheden bevinden zich nog op drie sterren niveau, maar dat is het mooie van Linked Data. Je kan stap voor stap zetten in plaats van de big bang-benadering. Het Nederlandse bedrijfsleven loopt in het geheel nog wat achter, hoewel met name in de sector van de logistiek, media, pharma en de bouwwereld er al het nodige gebeurt op het gebied van Linked Data.”

Platform Linked Data Nederland[bewerken]

Dat Nederland het zo goed doet op Europees niveau is, wat betreft Frank van Harmelen, voor een erg groot deel te danken aan het Platform Linked Data Nederland. “Het platform is cruciaal in die ontwikkeling. Ik weet nog de eerste keer dat ik uitgenodigd was bij het platform en toen dacht: hier zit de zaal vol met mensen van onder andere gemeenten en provincies die allemaal met Linked Data aan de gang zijn en ook nog eens actief zijn met het uitwisselen van kennis en kunde. De PLDN-community is iets waar veel landen jaloers op zijn. Dat maakt het allemaal ook zo mooi en compleet. De academische wereld heeft wel de kennis, maat niet de mogelijkheid of de tijd om dat te organiseren en dan is het goed dat het gebeurt door mensen die uit de praktijk komen. Zij weten wat er werkt en wat niet en weten ook waar de moeilijkheden, mogelijkheden en kansen zitten. Ik ben er inmiddels van overtuigd dat de community het meest waardevolle is dat wij hebben als het gaat om Linked Data. En er zal de komende jaren, zolang het onderwerp nog niet echt breed is geland, ook wel behoefte blijven aan een dergelijke community. Al is het alleen maar vanwege de brugfunctie. Een brugfunctie tussen de kennisoverdracht vanuit academie naar praktijk, maar ook kennisuitwisseling binnen die praktijk. Daarnaast zijn er nog genoeg partijen die behoefte hebben om uitgelegd te krijgen hoe de Linked Data-technologie werkt. Het platform kan die partijen helpen om daarbij stappen te maken en het geheel concreet te maken.”

Het wensenlijstje van Frank[bewerken]

Frank van Harmelen maakte tijdens het PLDN-congres te Eindhoven van juni 2016 de balans op van waar we staan met Linked Data. Wat is er gerealiseerd en waar liggen de uitdagingen?


“Waar staan we op dit moment? We kunnen concluderen dat Linked Data een breed gebruikt datamodel (RDF) heeft. Er is overeenstemming over hoe de semantiek met Linked Data beschreven kan worden. Ook wordt het belang van semantiek alom omarmd en zijn verschillende syntaxen succesvol gestandaardiseerd. De sterke mate van standaardisatie is sowieso de kracht van Linked Data. Verder zijn er tools beschikbaar voor het converteren van legacy data, en ook schaalbare opslag is gerealiseerd, waardoor er inmiddels al veel Linked Data online beschikbaar is.

Klagen kunnen we ook niet over de hoeveelheid toepassingen. Inmiddels zijn er te veel om bij te houden. Ook zijn er op bescheiden schaal tools beschikbaar om links aan te brengen tussen data, toch wel de kern van Linked Data. Daarnaast wordt binnen de overheid het publiceren van open data gestimuleerd, waarbij een Linked Data-aanpak wordt gebruikt op weg naar de vijf sterren.

Maar we zijn er nog niet… Zo zijn er te weinig kenners/toepassers, een significante drempel voor organisaties om aan de slag te gaan met Linked Data. Dat betekent dat er meer en betere opleidingsmogelijkheden moeten komen met meer en beter opleidingsmateriaal. Daarbij is een betere user interfaces nodig bovenop de Linked Data, waarbij specifiek rekening moet worden gehouden met de eindgebruiker. Verder zien we dat er al veel Linked Data online beschikbaar is, maar er kan echt nog veel meer bij. Bijvoorbeeld op het gebied van streaming data. Belangrijk is ook dat er op het gebied van tools voor het linken van data, een professionaliseringsslag plaats moet vinden. De huidige tools zijn veelal academisch van aard en daarmee te beperkt. Een nieuw aandachtsgebied vormt verder gesloten data, al dan niet in combinatie met open data. Het is goed om te zien dat ook daar de techniek van Linked Data terrein aan het winnen is.

Stappen kunnen er ook worden gezet op het gebied van privacy. Op dat gebied is het noodzakelijk dat er de nodige garanties afgegeven kunnen worden. Ook als het gaat om provenance (herkomst) kunnen er stappen worden gezet. Provenance wordt een steeds belangrijker onderdeel van metadata. De standaarden zijn er inmiddels en nu het gebruik nog. Tot slot de kwaliteit, beschikbaarheid en betrouwbaarheid van de beschikbare Linked Data. Die moet beter. Maar desondanks kunnen we zeggen dat het goed gaat met de ontwikkeling van Linked Data.

To do list.jpg

Erwin Folmer en Frits de Jong