Conceptual friday 2 mei 2014

DataCube en sensor data[bewerken]

Op uitnodiging van case 3 / 7 kwam Christophe Gueret een toelichting geven over de DataCube vocabulaire en met ons discussiëren over de mogelijke toepasbaarheid daarvan op sensor data.

Christophe begon met een overzicht van de vocabulaire. Het draait in DataCube om Observations die Dimensions en Measures hebben. De observasions zijn veelal statistische waarnemingen. Dimensions zijn eigenschappen van een waarneming en de measure geeft de hoeveelheid aan. Een observation kan bijvoorbeeld gaan over een groep mensen met 10 personen: de measure van die observatie is dan 10. Het is in DataCube good practice om ook een DataStructureDefinition mee te geven: een beschrijving van de datastructuur. Dit is niet strict noodzakelijk omdat in RDF data zelfbeschrijvend is, maar bij de verwerking van statistische data is het toch wel prettig om een voorspelbare en beschreven datastructuur te hebben. DataCube tooling maakt hier gebruik van.

Slices vormen een speciale manier om de data te organiseren en comprimeren. Je kunt bijvoorbeeld een 'slice' maken van alle observaties in één jaar: dit doe je door in de SliceKey het betreffende jaartal te zetten. Voor sensor data zou een logische slide de locatie zijn.

Triple stores: bad at UPDATE[bewerken]

Uit het overzicht van Christophe bleek echter dat Data Cube waarschijnlijk minder geschikt is voor sensor data vanwege de grote hoeveelheid continuus data. In het algemeen kun je stellen: Triple stores are bad at UPDATE. Het is niet aan te raden om, bijvoorbeeld, elke 10 seconden (of vaker) een Observation te maken, terwijl dit bij sensordata wel gangbaar is. Het is voor dit soort data vooral interessant om te kijken naar de RRD Tool en het Spitfire project van o.a. Manfred Hauswirth (DERI Galway). De RRD Tool is een niet op linked data technologie gebaseerde, maar wel efficiënte oplossing voor continuus data zoals sensor data. Om de data op het linked data web te kunnen gebruiken, zou je hier bovenop een laagje DataCube en een SPARQL endpoint bovenop kunnen zetten, die onder water de queries vertaalt naar RDD syntax. Dit kan natuurlijk ook met een andere efficiënte store voor continuus data.

Naast DataCube is ook SSN kandidaat voor het linked data 'laagje' bovenop een snelle opslagvoorziening. SSN is meer specifiek gericht op sensoren maar gaat ook over observaties (hier zit een duidelijke overlap met DataCube). Het Spitfire project gebruikt SSN.

Linked Data Platform is ook interessant in zo'n architectuur. Je kunt dan bijvoorbeeld URIs gebruiken die containers derefereren in plaats van individuals en in deze containers kun je van alles stoppen. Je zou bijvoorbeeld alle metingen per 10 of 100 per dag kunnen groeperen in zo'n container. De metingen als linked data kun je on the fly genereren als er om verzocht wordt. Linked Data Platform is een Last Call draft standaard van de W3C. Er zijn al meerdere implementaties, zoals Marmotta, Callimachus, rdflib.js, Virtuoso en TopBraid (als de wat grotere spelers) die ook het concept van containers en paging ondersteunen.

Volgende stap: Contact opnemen met Manfred Hauswirth van Spitfire en zijn advies vragen over de te gebruiken architectuur voor sensor linked data; en over de keuze voor DataCube vs SSN.