
Waarom netCDF en OPeNDAP?
NetCDF heeft als dataformaat veel mooie eigenschappen, zoals de herbruikbaarheid op de lange termijn, de efficiënte verwerking van veel soorten numerieke data en OPeNDAP voegt voor programma’s de mogelijkheid toe om specifieke data binnen datasets te gebruiken zonder de hele file te hoeven downloaden.
Op dit moment bestaat het 4TU.ReseachData archief voor ca. 90% uit netCDF data. Deze netCDF data zijn te vinden in ons data-archief of rechtstreeks op onze OPeNDAP server.
Wat is netCDF?
Veel datasets zijn in wezen multi-dimensionale blokken getallen, geassocieerd met een of andere variabele en een fysische eenheid. Iedere dimensie (of as van het blok) draagt weer een reeks getallen en een eenheid. Voeg daar metadata aan toe over alles wat nodig is om de data te begrijpen, stop alles in een file die ook nog eens efficiënt is in opslag en verwerking, voeg ook nog ondersteuning toe voor complexere datastructuren and voilá, je perfecte dataformaat. Dat is netCDF.
Ondersteuning voor het lezen en schrijven van netCDF bestaat voor Python, Java, C/C++, Fortran en Matlab.
Conventies
In NetCDF heb je enorm veel vrijheid over hoe je je data en metadata modelleert, zelfs binnen het model van de aangeklede multidimensionale array. Mooi, maar voor echte samenwerking moet je afspraken maken over een aantal zaken, zoals namen van variabelen en fysische eenheden of, algemener, namen (en soms een lijst van toegestane waarden) van metadata velden in de beschrijving van datasets, variabelen en dimensies. Deze afspraken staan bekend als conventies en de belangrijkste zijn de CF (Climate and Forecast) conventies. Rond de CF conventies is een grote groep onderzoekers actief en er is specifieke software die deze conventies ondersteunt. NetCDF wordt vooral gebruikt als het gaat over de atmosfeer, oceanen, stroomgebieden van rivieren e.d., zoals de naam “Climate and Forcast” misschien al doet vemoeden.
Wat is OPeNDAP?
OPeNDAP is een manier (protocol) om data van een server te raadplegen zonder dat je de complete datafiles hoeft te downloaden. Het kan dan gaan om de “ingebouwde” metadata of om specifieke intervallen, doorsnede of subsamples van de data. Omgekeerd kan een server ook zijn geconfigureerd om een hele reeks van datafiles (bijv. een tijdreeks met elke maand een file) te tonen als een enkele dataset. Veel van deze functies zijn direct te gebruiken in de web browser, maar het onderste uit de kan haal je met de OPeNDAP interfaces die er zijn voor Pyhon, Java, Matlab etc.
OPeNDAP is vooral geschikt voor netCDF data, maar kan ook overweg met enkele verwante dataformaten.
OPeNDAP en 4TU.ResearchData
Bij 4TU.ResearchData hebben we, vooral voor netCDF files, een zogenaamde THREDDS server die OPeNDAP “spreekt”. Geüploade netCDF datasets komen daar terecht. Voor gemengde datasets (gedeeltelijk netCDF, gedeeltelijk ander files) beslissen we per geval of de netCDF files op de OPeNDAP server worden opgeslagen of in het reguliere archief samen met de rest van de dataset. Er wordt altijd een “homepage” van de dataset in het archief gemaakt, met metadata en een DOI, zo nodig met een link naar de OPeNDAP data. Op deze pagina staat ook een overzicht van de files op OPeNDAP en de beschikbare opties om de (meta)data in de files bekijken.
Neem contact met ons als u een grote datacollectie heeft. We kunnen dan zorgen voor een oplossing op maat.
Voorbeelden
- IDRA weather radar measurements - https://doi.org/10.4121/uuid:5f3bcaa2-a456-4a66-a67b-1eec928cae6d
- DENlab wind data - https://doi.org/10.4121/uuid:9604a1b0-13b6-4f23-bd6c-bb028591307c
- DENlab solar data - https://doi.org/10.4121/uuid:61e4eb3f-83ad-462d-b9ca-d151b717f8e3
- System identification (SYSID) benchmark for an active vibration isolation system (AVIS) - https://doi.org/10.4121/uuid:494e738d-e2aa-49e4-b076-ac96d3a142e8
- Zandmotor data - https://doi.org/10.4121/collection:zandmotor
- CHASE-PL Climate Projections: 5-km Gridded Daily Precipitation & Temperature Dataset (CPLCP-GDPT5) - https://doi.org/10.4121/uuid:e940ec1a-71a0-449e-bbe3-29217f2ba31d