Conceptual friday 2 mei 2014

DataCube en sensor dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat

Op uitnodiging van case 3 / 7 kwam Christophe Gueret een toelichting geven over de DataCube vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken. en met ons discussiëren over de mogelijke toepasbaarheid daarvan op sensor dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat.

Christophe begon met een overzicht van de vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken.. Het draait in DataCube om Observations die Dimensions en Measures hebben. De observasions zijn veelal statistische waarnemingen. Dimensions zijn eigenschappen van een waarneming en de measure geeft de hoeveelheid aan. Een observation kan bijvoorbeeld gaan over een groep mensen met 10 personen: de measure van die observatie is dan 10. Het is in DataCube good practice om ook een DataStructureDefinition mee te geven: een beschrijving van de datastructuur. Dit is niet strict noodzakelijk omdat in RDF data zelfbeschrijvend is, maar bij de verwerking van statistische data is het toch wel prettig om een voorspelbare en beschreven datastructuur te hebben. DataCube tooling maakt hier gebruik van.

Datacube-overview.png

Slices vormen een speciale manier om de data te organiseren en comprimeren. Je kunt bijvoorbeeld een 'slice' maken van alle observaties in één jaar: dit doe je door in de SliceKey het betreffende jaartal te zetten. Voor sensor data zou een logische slide de locatie zijn.

Triple stores: bad at UPDATE

Uit het overzicht van Christophe bleek echter dat Data Cube waarschijnlijk minder geschikt is voor sensor data vanwege de grote hoeveelheid continuus dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. In het algemeen kun je stellen: Triple stores are bad at UPDATE. Het is niet aan te raden om, bijvoorbeeld, elke 10 seconden (of vaker) een Observation te maken, terwijl dit bij sensordata wel gangbaar is. Het is voor dit soort data vooral interessant om te kijken naar de RRD Tool en het Spitfire project van o.a. Manfred Hauswirth (DERI Galway). De RRD Tool is een niet op linked data technologie gebaseerde, maar wel efficiënte oplossing voor continuus data zoals sensor dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Om de data op het linked data web te kunnen gebruiken, zou je hier bovenop een laagje DataCube en een SPARQL endpoint bovenop kunnen zetten, die onder water de queries vertaalt naar RDD syntax. Dit kan natuurlijk ook met een andere efficiënte store voor continuus dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat.

Naast DataCube is ook SSN kandidaat voor het linked data 'laagje' bovenop een snelle opslagvoorziening. SSN is meer specifiek gericht op sensoren maar gaat ook over observaties (hier zit een duidelijke overlap met DataCube). Het Spitfire project gebruikt SSN.

Linked Data Platform is ook interessant in zo'n architectuur. Je kunt dan bijvoorbeeld URIsEen Uniform Resource Identifier (URI), is een internet-protocolelement, gebaseerd op eerdere voorstellen van Tim Berners-Lee. Het is een unieke benaming van een bron, een stuk informatie, data of dergelijke. gebruiken die containers derefereren in plaats van individualsAls in OWL individuals. en in deze containers kun je van alles stoppen. Je zou bijvoorbeeld alle metingen per 10 of 100 per dag kunnen groeperen in zo'n container. De metingen als linked data kun je on the fly genereren als er om verzocht wordt. Linked Data Platform is een Last Call draft standaard van de W3CHet World Wide Web Consortium is een organisatie die de webstandaarden voor het wereldwijde web ontwerpt, zoals HTML, XHTML, XML, CSS en de Web Content Accessibility Guidelines. Het wordt geleid door Tim Berners-Lee, de originele bedenker van het HTTP-protocol en HTML, waar het web oorspronkelijk en nog steeds grotendeels op gebaseerd is.. Er zijn al meerdere implementaties, zoals Marmotta, Callimachus, rdflib.js, VirtuosoVirtuoso (Universal server) en TopBraid (als de wat grotere spelers) die ook het concept van containers en paging ondersteunen.

Volgende stap: Contact opnemen met Manfred Hauswirth van Spitfire en zijn advies vragen over de te gebruiken architectuur voor sensor linked dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat; en over de keuze voor DataCube vs SSN.

Links

De DataCube vocabulaireEen vocabulaire is een verzameling herbruikbare modeleerconstructies in RDF, generiek of specifiek voor een bepaald domein, die gebruikt kunnen worden om Linked Data mee te beschrijven, modeleren en op te slaan en om Linked Data via het internet met elkaar te kunnen linken.: http://www.w3.org/TR/2014/REC-vocab-data-cube-20140116/

Informatie over RDDtool: http://oss.oetiker.ch/rrdtool/

Manfred Hauswirth, een authoriteit op het gebied van sensordata en linked dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat: http://www.manfredhauswirth.org/

Het Spitfire project waar hij bij betrokken is: http://www.spitfire-project.eu/

extra link met o.a. Data Cube voorbeelden: http://www.w3.org/TR/vocab-data-cube-use-cases/

Linked Data Platform: http://www.w3.org/2012/ldp/wiki/Main_Page http://www.w3.org/TR/2014/WD-ldp-20140311/ http://www.w3.org/wiki/LDP_Implementations

Project waar Christophe bij betrokken is en waar Data Cube gebruikt is: http://www.cedar-project.nl/

http://opencube-project.eu/ (Paul Hermans is hier bij betrokken)

http://aksw.org/Projects/CubeViz.html (gebaseerd op OntoWikiOntoWiki facilitates the visual presentation of a knowledge base as an information map, with different views on instance data. It enables intuitive authoring of semantic content, with an inline editing mode for editing RDF content, similar to WYSIWIG for text documents.)

Sarven Capadisli doet veel met statistiek en linked dataWeergave van een feit, begrip of aanwijzing, geschikt voor overdracht, interpretatie of verwerking door een persoon of apparaat. Zijn werk is te vinden op: http://270a.info/

Een gemakkelijk te installeren, lightweight triple store: http://www.aelius.com/njh/redstore/

http://www.spitfire-project.eu/coap1

http://www.pilod.nl/wiki/SSN

http://smartcitizen.me/

http://smartcitizen.me/devices

http://smartcitizen.me/devices/view/1046

https://xively.com/

http://nimbits.com/index.jsp

http://ontop.inf.unibz.it/

http://nbviewer.ipython.org/github/cgueret/CEDAR-Analysis/blob/master/Analysis%20of%20harmonized%20data.ipynb

http://ercim-news.ercim.eu/en97/ri/the-entity-registry-system-publishing-and-consuming-linked-data-in-poorly-connected-environments

http://www.w3.org/TR/json-ld/

http://yasgui.laurensrietveld.nl/

http://theodi.org/