Boek/RijnSantema

< Boek

Een nieuwe wereld, een nieuwe informatiearchitectuur

 

Auteurs

Ria van Rijn (Atelier Helder Informatie Architecten

Arjen Santema (Kadaster)

 

Linked Open Data maakt het mogelijk, dat gegevens die door verschillende partijen zijn gepubliceerd op internet, worden geïnterpreteerd en gebruikt door derden. Dit leidt tot een interessante business case voor overheidsorganisaties. De eigenaar van gegevens kan met Linked Open Data voor een fractie van de kosten voldoen aan zijn plicht gegevens te publiceren. En de afnemers hebben niet alleen lagere kosten, maar ook veel meer vrijheid in de manier van afnemen. Bovendien kunnen de gegevens gecombineerd worden tot verrassende, ongedachte toepassingen. Hoewel Linked Open Data nog in de kinderschoenen staat, gaan de ontwikkelingen ook erg snel. Daarom is het belangrijk om de consequenties ervan nu al in kaart te brengen. Optimaal gebruiken van deze nieuwe techniek vereist namelijk ook veranderingen in het omgaan met gegevens (door mensen maar ook door applicaties). Bovendien veranderen de verantwoordelijkheden van de organisatie met betrekking tot veiligheid en privacy. Een organisatie moet hiermee bij voorbaat rekening houden, wil zij ten volle kunnen gaan profiteren van de voordelen van Linked Open Data.

 

[kader zo hoog mogelijk]

Linked Data is een techniek, die semantische en technische interoperabiliteit opheft. Bovendien kan redundantie van gegevens hiermee vermeden worden. Linked Data is niet noodzakelijk Open Data. Linked Data kan ook gebruikt worden om data integratie binnen één organisatie te realiseren, bijvoorbeeld binnen één gemeente. Open Data heeft tot doel gegevens beschikbaar te stellen aan om het even wie, om daar interessante toepassingen mee te maken. Voor overheden is het concept van Open Data interessant, omdat daardoor tegemoet gekomen kan worden aan wensen van burgers en bedrijven, terwijl de kosten voor toepassingen door derden gemaakt worden. Linked Open Data combineert de techniek van Linked Data met de doelstellingen van Open Data. In deze paper gaan we uit van Linked Open Data, tenzij anders is vermeld.

 

Informatie architectuur gaat over het aanbrengen van samenhang tussen ontwikkelingen rond de informatievoorziening in een organisatie. Omgaan met de techniek van Linked Open Data is daar een voorbeeld van. Inzetten van Linked Open Data beperkt zich namelijk niet tot technische veranderingen. In dit artikel zullen we eerst laten zien, dat er voor overheidsorganisaties een goede business case is voor het via Linked Open Data verspreiden van overheidsgegevens. Vervolgens gaan we in op de consequenties, die het gebruik van deze techniek heeft op de andere aspecten van informatie architectuur, zoals gegevenskwaliteit en beveiliging.

 

Dit artikel is nog maar het begin van een inzicht in consequenties van het gebruik van Linked Open Data voor de architectuur van overheidsorganisaties. De inzichten zijn nog pril, maar de ontwikkelingen gaan snel. Het is voor de organisaties, die Linked Open Data willen gaan toepassen, van groot belang om alle consequenties ervan in het oog te houden. Zo kan voorkomen worden, dat voordelen teniet worden gedaan omdat niet alle aspecten goed zijn geïmplementeerd. Precies dat is het doel van werken met informatie architectuur.

 

Drijvende krachten bij de overheid: soberheid en transparantie
[bewerken]

Er zijn momenteel twee krachten, die de veranderingen bij de overheid drijven: soberheid en transparantie. Het toepassen van Linked Open Data door de Nederlandse overheid is kansrijk, omdat Linked Open Data zowel aspecten van openheid als van soberheid in zich heeft. Linked Open Data draagt namelijk niet alleen bij aan het open beschikbaar stellen van gegevens, wat de transparantie bevordert, maar kan dit uiteindelijk ook voor een fractie van de kosten doen, omdat het kostbare interoperabiliteitsproblemen kan oplossen.

 

Een duidelijke formulering van de politieke waarde van transparantie is te vinden in de Open Government Initiative van Obama: ‘My Administration is committed to an unprecedented level of openess in Government. We will work together to ensure the public trust and establish a system of transparancy, public participation, and collaboration. Openness will strengthen our democracy and promote efficiency and effectiveness in Government’ [7]. De overheid is immers van iedereen, dus ook de kennis van de overheid. (Deze openheid krijgt wel een enigszins cynische ondertoon in het kader van de ophef rond het PRISM-project van de NSA, waarin deze dienst alle internet- en sociale media verkeer blijkt af te luisteren.) Ook Europa [9] en Nederland [10] hebben transparantie en het delen van gegevens hoog op de agenda staan. Onder andere het Inspire programma is een belangrijke drijfveer om met name geo-data binnen de EU te standaardiseren en te delen middels open data.

 

Dat er een mogelijkheid is drastisch te besparen op de kosten door het beschikbaar stellen van gegevens bewijst het voorbeeld van het KNMI. In het EU rapport ‘Pricing Of Public Sector Information Study’ [2] wordt becijferd dat het KNMI in 1999 met 25 FTE nog €650.000 kosten maakte voor het verspreiden van gegevens over het weer. Daarbij waren toen in de markt nog 5 hergebruikers met een totale omzet van €5 miljoen door 50 FTE. In 2010, na vrijgave van de weergegevens, werd door het KNMI met nog maar 1,5 FTE €250.000 aan kosten gemaakt. Daar stond tegenover dat er in de markt inmiddels 50 meteorologische dienstverleners gebruik maakten van de weerdata, met een totale omzet van €20 miljoen door 150 FTE. Dat betekent €4 miljoen omzetbelasting. Het KNMI hoeft geen diensten meer te ondersteunen voor het verspreiden van data. Dat doet de markt. In plaats van kosten te maken genereert de overheid inkomsten; zie hier de business case voor de Nederlandse overheid.

 

Soberheid en transparantie zijn echter zeer algemene politieke uitgangspunten. Deze kunnen ook op andere manieren dan uitsluitend met Linked Open Data worden gerealiseerd. Transparantie kan ook geboden worden door miljoenen documenten on line toegankelijk te maken (Open Data). Soberheid kan ook bereikt worden door binnen de overheid gegevens te delen via de techniek van Linked Data. In deze paper gaan we echter uit van Linked Open Data en de voordelen die dit biedt voor de overheid, namelijk een elegante en uiteindelijk goedkope oplossing voor technische en semantische interoperabiliteitsproblemen gecombineerd met de mogelijkheid het gebruik van de gegevens deel voor rekening van de markt te laten plaatsvinden. Vanuit die gedachte is het interessant om te onderzoeken of het stelsel van basisregistraties gerealiseerd kan worden met Linked Open Data.

 

Nederlands stelsel van basisregistraties
[bewerken]

Het stelsel van basisregistraties is in oorsprong bedoeld voor hergebruik van enkele aangewezen gegevens-verzamelingen door de overheid zelf. Centraal staat de gemeentelijke Basis Registratie Personen (RNI en GBA), met daarin de natuurlijke personen. Deze kunnen Rechtspersonen of Samenwerkingsverbanden oprichten die in het Nieuw Handels Register van de Kamer van Koophandel worden geregistreerd. Onroerende zaken (Kadaster) en roerende zaken (vaar- en vliegtuigen bij het Kadaster en voertuigen bij de RDW) zijn zodanig van economische waarde dat ze in registers worden vastgelegd. Van onroerende zaken wordt bovendien de waarde bijgehouden in de basisregistratie voor de Waardering Onroerende Zaken (WOZ). Ruimtelijke objecten worden vastgelegd in de Basis Registratie Topografie (1:10.000 – TOP10), ‘verblijfsobjecten’ in de gemeentelijke Basisregistraties Adressen en Gebouwen (BAG), objecten met een oorsprong in de Grootschalige Basis Kaart voor Nederland (GBKN) in de Basisregistratie Grootschalige Topografie (BGT). Voor de ondergrond is er de Basis Registratie Ondergrond (BRO). De belastingdienst legt de Basis Registratie Inkomens (BRI) vast en de Basisregistratie Lonen, Arbeidsverhoudingen en Uitkeringsverhoudingen (BLAU) wordt beheerd door het UWV.

 

Figuur 1 geeft aan hoe deze basisregistraties onderling zijn gerelateerd [1]. Groen geeft aan wat begin 2013 al is gerealiseerd, geel geeft aan wat nog wordt gebouwd.

 

Overheidsorganisaties zijn verplicht gebruik te maken van de in deze basisregistraties vastgelegde gegevens. Dat betekent, dat de beheerders daarvan – de bronhouders – verplicht zijn deze gegevens beschikbaar te stellen. Momenteel worden de gegevens tussen de diverse overheidspartijen gedeeld door een complex stelsel van infrastructurele voorzieningen, zogenaamde digikoppelingen, digimeldingen e.d.. De begroting van Logius, de organisatie, die hiervoor verantwoordelijk is, bedroeg 59 miljoen in 2010 en 44 miljoen in 2011 [5]. De voorzieningen bestaan meestal uit een one size fits all voorziening (soms twee), waarvan iedere overheidsinstelling min of meer gedwongen gebruik moet maken. De afnemers zijn vaak ontevreden over de verhouding kosten baten van deze voorzieningen. Bovendien duurt het doorvoeren van veranderingen onaanvaardbaar lang. Tenslotte kunnen veel organisaties en/of applicaties niet uit de voeten met de voorzieningen.

 


 

Figuur 1 Samenhang tussen de verschillende basisregistraties. Groen geeft aan wat begin 2013 al is gerealiseerd, geel geeft aan wat nog wordt gebouwd.

 

Belangrijker probleem is echter, dat de Basisregistraties slechts een fractie van de door de overheid beheerde gegevens omvat. Bovendien ontstaat er steeds meer vraag van buiten de overheid naar toegang van de in de basisregistraties vastgelegde gegevens, bijvoorbeeld als gevolg van wet- en regelgeving. Een zeer bekend voorbeeld is de vraag van woningbouwcorporaties naar het belastbaar inkomen van huurders in verband met de huurverhoging voor scheefwoners. Voor (roerende en onroerende) zaken met economische waarde is het van belang zeker te weten dat degenen met wie je zaken doet daadwerkelijk de eigenaar is. De in dit boek beschreven Huiskluis is een ander voorbeeld, waarbij publieke en private gegevens worden samengevoegd tot een voor veel partijen zinvolle toepassing.

 

Businesscase voor (basis)registraties met Linked Open Data
[bewerken]

De business case voor een stelsel van basisregistraties met Linked Open data is gemakkelijk te maken. Bij Linked Open Data voldoet een veilige en robuuste architectuur voor het delen van data, waarbij gebruik kan worden gemaakt van bestaande semantisch-web technieken. Niet langer zijn de infrastructurele voorzieningen van Logius nodig, die tot nu toe in het stelsel voor basisregistraties worden gebruikt om data ‘rond te pompen’ tussen overheidsorganisaties en andere gerechtigden. Dat bespaart tientallen miljoenen op jaarbasis.


 

Figuur 2 Semantische kern stelsel van basisregistraties

 

Maar de voordelen beperken zich niet alleen tot de distributie van gegevens. Rond de semantische kern [8] die de samenhang tussen de registraties definieert kan iedere registratie zijn eigen ontologie definiëren en publiceren. In zo’n ontologie wordt de samenhang van alle begrippen binnen de registratie vastgelegd. Dit maakt een federatief beheer van alle registraties op zich mogelijk. Alleen de structuur van de samenhang (de semantische kern) hoeft centraal te worden beheerd. Bovendien kan iedere overheidsorganisatie op deze manier ook méér gegevens publiceren dan is vastgelegd in de wetgeving rond de basisregistraties. Het is bekend dat bijvoorbeeld gemeenten en provincies véél meer gegevens kunnen en willen delen dan zij wettelijk verplicht zijn.

 

Op het niveau van de data zelf kan iedereen zelf zijn eigen samenhang vaststellen. Zo kan een formele landelijk voorziening van de BAG aangeven dat een pand niet meer geschikt is om in te wonen, kan een gemeente vaststellen dat er toch iemand (illegaal) woont en kan de belastingdienst concluderen dat dit een meerpersoons huishouden betreft. Voor zover niet strijdig met privacy kan dit soort data worden gedeeld tussen overheden en/of met de buitenwereld. Daardoor wordt data betrouwbaarder.

 

Ook relaties tussen registraties kunnen worden gedeeld. Op die manier weten bijvoorbeeld gemeenten en belastingdienst welke WOZ waarde bij welke onroerende zaak en bij welk adres hoort, ofwel hoe de WOZ, BRK en BAG zijn gekoppeld. Als het niet klopt dan reageert de belastingplichtige immers wel. Een dergelijke simpele koppeling is goed genoeg voor degenen die er belang bij hebben.

 

Het gebruik van Linked Open data bij stelsel van basisregistraties leidt dus niet alleen tot lagere kosten maar ook nog eens tot méér flexibiliteit voor bronhouders en afnemers, met andere woorden: meer voor minder geld. De combinatie lage kosten en minder centraal beheer leidt bovendien tot het publiceren van meer gegevens, met andere woorden: meer transparantie. Hierdoor heeft het ook een politieke appeal: soberheid en transparantie zijn immers de drijvende krachten momenteel.

 

Stelsel van basisregistraties en Linked Open Data in de huidige praktijk
[bewerken]

De nieuwe stelselcatalogus is een mooi voorbeeld waarin metadata van basisregistraties als Linked Open Data is vastgelegd. Dit is een belangrijke eerste stap om data te kunnen verbinden. Het Kadaster heeft de BRK geheel gedefinieerd als semantisch netwerk, inclusief de link naar wetgeving, die ook op het punt staat te worden ontsloten als Linked Open Data. Zo kan de stelselcatalogus voor de betekenis van de BRK data doorlinken naar de semantische definities van het Kadaster, waardoor extra context wordt toegevoegd, terwijl die op zijn beurt doorlinkt naar de betreffende bron in de wetgeving. Zo ontstaat maximaal inzicht in de betekenis en achtergrond van deze registratie.

Een logische volgende stap is het als Linked Open Data publiceren van de data zelf, tenminste waar dit zonder privacybedreigingen kan. Voor geografische data is dat al beleid en in het kader van Inspire in Europees verband vastgelegd. Ook bijvoorbeeld het ministerie van I&M heeft expliciet als beleid al haar basisregistratiedata uiterlijk 1 januari 2015 als |Linked Open Data beschikbaar te hebben, mits er geen privacybelemmeringen zijn. De concept uri-strategie geeft houvast voor het toekennen de door Inspire gevraagde namespaces voor geografische registraties, bijvoorbeeld http://bag.gov.nl voor de landelijke voorziening voor de BAG. Consequent doorvoeren van deze strategie impliceert ook het gebruik van ‘resolvable uri’s’ voor Nen3610 id’s voor geografische data. Dergelijke id’s moeten persistent zijn en kunnen dus maar beter direct goed worden toegekend. Daarmee zou het concept van Linked Open Data voor geografische data zo maar eens op korte termijn een flinke vlucht kunnen nemen.

 

Informatie integratie met Linked Open Data
[bewerken]

Een keuze voor Linked Open Data voor het delen van gegevens binnen de buiten de overheid zal leiden tot een andere soort informatie architectuur voor overheidsorganisaties. Interoperabiliteit is voor de overheid het grootste probleem. Interoperabiliteit staat centraal in referentie architecturen zoals de NORA en de GEMMA.

 

Momenteel worden deze interoperabiliteitsproblemen vooral infrastructureel opgelost: door het koppelen van applicaties. Een grote gemeente besteedt tientallen miljoenen per jaar om gegevens, die vastgelegd zijn in de ene applicatie, te kopiëren naar andere applicaties, zodat deze gebruik kunnen maken van deze gegevens. De semantische interoperabiliteit wordt binnen die koppeling opgelost. Dit is niet alleen initieel kostbaar, maar leidt ook tot steeds grotere beheers- en onderhoudskosten. Ook voor uitvoerings-organisaties zijn infrastructurele koppelingen miljoenenprojecten. Van de te kopiëren gegevens kan 70 tot 80% geautomatiseerd worden overgenomen, 20 tot 30% is arbeidsintensief uitzoekwerk van enkele miljoenen gevallen.

 

Ook wanneer de infrastructurele koppelingen met behulp van webservices zijn geïmplementeerd, doen zich problemen voor. Webservices zijn erg geschikt voor het verwerken van transacties, maar minder om het probleem van data integratie op te lossen [3]. In de praktijk worden binnen de overheid duizenden XML-schema’s gebruikt, al dan niet conform de StUF-standaard. Al deze schema´s kunnen – net als traditionele applicaties – verschillende definities hanteren van min of meer overlappende gegevens. Als deze in de loop van de tijd veranderen, doet zich voor beheer en onderhoud van XML-schema’s een vergelijkbaar data integratie probleem als met traditionele applicaties voor, dat iedere organisatie voor zich moet zien op te lossen.

 

Door het gebruik van Linked Data zijn infrastructurele koppelingen tussen applicaties niet meer nodig. Met Linked Data kan de toepassingen direct naar de gezochte gegevens worden verwezen. Data hoeft niet steeds te worden gekopieerd naar een eigen database voor de toepassing omdat ze via een uri (unique resource identifier) beschikbaar is op het web. Dit impliceert dat de uri-strategie voor het stelsel uit moet gaan van ‘resolvable uri’s’, dat wil zeggen uri’s die direct naar de data zelf leiden.

 

Gegevens zijn niet langer onverbrekelijk verbonden met de context van hun applicatie, maar dragen zelf hun betekenis bij zich in de vorm van semantiek en metadata. Deze semantiek wordt niet meer vastgelegd in databases en beschreven in losse documenten, maar met behulp van gestandaardiseerde vocabulaires die het mogelijk maken data door computers te laten interpreteren en te linken. Metadata betreft onder andere zaken als kwaliteit, volledigheid en tijdsaspecten zoals wanneer data is vastgelegd en wanneer en na welke kwaliteitscontroles ze beschikbaar is gesteld voor derden.

 

Voor de aanbieder is een goed ingericht beheer van deze metadata (metadatamanagement) een absolute voorwaarde om data als Linked Open Data te kunnen publiceren. De afnemer is niet langer afhankelijk van (de techniek van) de aanbieder om de gegevens te verkrijgen. Wanneer de gegevens met voldoende semantiek worden gepubliceerd kan de afnemer de gegevens ook verantwoord gebruiken.

 

Gegevens krijgen een geheel eigen, centrale plek in deze architectuur [4]. Een organisatie kan een compleet logisch gegevensmodel voor haar eigen processen samenstellen op basis van een combinatie van eigen en externe gegevens. De gegevens in dit model kunnen afkomstig zijn uit de eigen applicaties en databases, maar het kunnen ook gegevens zijn waarover de organisatie niet zelf beschikt en die via Linked (Open) Data van (betrouwbare) derden worden verkregen.

 

Andersom moet een organisatie ook steeds explicieter onderzoeken welke eigen gegevens zij via welke techniek beschikbaar wil stellen aan processen buiten de eigen organisatie. (Al dan niet open; al dan niet linked.) Zijn deze keuzes gemaakt, dan moet de organisatie investeren in de kwaliteit van de aangeboden gegevens. Voor een individuele medewerker heeft het natuurlijk wel gevolgen of deze een lijstje in Excel bijhoudt voor eigen gebruik, of dat zijn of haar gegevens juist, volledig en actueel gepubliceerd dienen te worden en bovendien door enkele veelgebruikte apps worden benut. Aangezien de organisatie op foute gegevens wordt aangesproken, zal ook de organisatie als geheel zich voor de kwaliteit van de gepubliceerde gegevens verantwoordelijk moeten voelen.

 

Veiligheid en privacy
[bewerken]

Het credo van de overheid is: open wat open kan, gesloten en veilig waar privacy moet worden geborgd. In de privacywetgeving wordt hiervoor het principe van ‘doelbinding’ gebruikt. Doelbinding is het principe dat iemand (persoon of organisatie) alleen informatie mag vragen, opslaan, gebruiken en delen ten behoeve van welbepaalde, uitdrukkelijk omschreven en gerechtvaardigde doeleinden [6]. Dat betekent dat informatie die direct of indirect herleidbaar is tot personen alleen mag worden verstrekt voor een bepaald welomschreven doel. Omdat bij Linked Open Data de data wordt losgekoppeld van de toepassing, is dit doel bij het aanbieden van data niet bij voorbaat welomschreven. Om die reden kan het verstrekken van Linked Open Data tot gevoelige privacy kwesties leiden. De eigenaar van de gegevens is namelijk verantwoordelijk voor het juiste gebruik ervan, ook als dat gebeurt in toepassingen waar hij niet eens weet van heeft.

 

Privacy issues kunnen gedeeltelijk omzeild worden door privacy gevoelige gegevens niet open beschikbaar te stellen, maar in een strikt beveiligde omgeving. De relatie tussen deze beveiligde, persoonlijke data en open data kan worden gelegd middels verwijsindexen die hiertussen de link leggen. Toegang tot beveiligde data kan worden geregeld via authenticatieservices als digid en E-herkenning. Autorisatie kan bestaan uit een combinatie van doel en identiteit van de afnemer. Waar nodig kan de sterkte van deze authenticatieservices worden verbeterd. Langs dit soort wegen kan privacy in principe maximaal worden geborgd.

 

Daarnaast is het ‘huiskluis’ concept interessant. Dit concept geeft de eigenaar van persoonlijke en/of privacygevoelige data zelf de regie over deze data. Dit concept kan ook worden gegeneraliseerd naar een MijnOverheid 2.0, waar de overheid haar gegevens deelt met de burger en de burger persoonlijke dingen, tot aan bijvoorbeeld ingevulde belastingaanslagen, veilig kan bewaren. Ook biedt dit concept van delen van data van de burger met door de burger zelf te bepalen organisaties nieuwe mogelijkheden voor toepassingen als het elektronisch patiëntendossier.

 

In beide oplossingen is er echter geen sprake meer van open data. Veiligheid en privacy in de context van Linked Open Data zal daarom voorlopig wel een issue blijven. Een aanbieder van privacy gevoelige gegevens doet er goed aan de risico’s en de technische mogelijkheden goed tegen elkaar af te wegen.

 

Conclusie
[bewerken]

Linked Open Data draagt hoe dan ook bij aan de twee belangrijkste politieke drijfveren van dit moment: transparantie en soberheid. Linked Data is een geschiktere techniek om de gegevens van het stelsel van basisregistraties mee te ontsluiten voor overheidsorganisaties dan de huidige infrastructurele koppelingen, al dan niet met web services. Al deze koppelingen leiden namelijk nog steeds tot grote problemen voor data integratie binnen overheidsorganisaties. Het grote voordeel van Linked Data is dat het een oplossing biedt voor zowel technische als semantische interoperabiliteitsproblemen.

 

Het aanbieden van Linked Open Data brengt wel nieuwe verantwoordelijkheden met zich mee voor de aanbiedende partij. In de eerste plaats zal deze moeten investeren in de kwaliteit (juist, volledig, actueel) van de gegevens. Maar ook wordt de aanbiedende partij in het kader van de privacy wetgeving verantwoordelijk gehouden voor het gebruik van haar gegevens voor toepassingen waar zij niet eens weet van heeft. Dit leidt tot privacy issues, die wel technisch omzeild kunnen worden, maar dan is er geen sprake meer van open data. Voorlopig zal veiligheid en privacy daarom nog wel een issue blijven.

 

De praktijk moet nog uitwijzen hoe de links worden onderhouden en hoe, zeker in het stelsel van basisregistraties wordt geborgd dat deze betrouwbaar blijven. Als eerste registratie die in dit nieuwe paradigma wordt opgepakt kan de informatievoorziening omgevingswet wel eens heel goed domein zijn. Daar zit relatief veel ruimtelijke informatie in en minder privacy en bestaat nog ruimte voor de oplossingsrichting.

 

Referenties
[bewerken]