Data Infrastructuur
Vergelijk data-infrastructuur met een complex transportnetwerk. Voor betrouwbaar vervoer heb je allereerst een degelijke auto (hardware) nodig, hoogwaardige brandstof (software) en duidelijke verkeersregels (internationale richtlijnen). En ga je grenzen over – zowel binnen je eigen regio (WUR) als daarbuiten (nationaal en internationaal) – dan moet je met elkaar overleggen hoe je je data ‘parkeert’ en omgaat met innovaties.
Het onderdeel infrastructuur van het Wageningen Data Competence Center (WDCC) biedt collega’s hulp bij de zoektocht naar de juiste apparatuur en programma’s, heeft zicht op de laatste (internationale) ontwikkelingen en verbindt verschillende kennisdisciplines met elkaar in ‘communities’.
Goede infrastructuur = eis voor ambitieus onderzoek
Een goede data-infrastructuur is een absolute voorwaarde voor ambitieus onderwijs en onderzoek. Het begint bij state of the art gereedschap – van laptops tot intelligente software – én vereist een brede blik. Immers gaat wetenschappelijk onderzoek tegenwoordig over disciplines én landsgrenzen heen. De infrastructuurexperts van het WDCC weten welke partners – zoals SURF (een nationaal IT-platform voor de wetenschap) - en internationale samenwerkingsverbanden zoals de European Open Science Cloud waardevol zijn voor WUR. Uitgangspunt is dat kennisinstellingen als universiteiten en onderzoeksinstituten zoveel mogelijk van hun onderzoeksresultaten openbaar ontsluiten, via open source-programma’s (online software waar iedereen bij kan) en open data (dataopslag waar iedereen bij kan). Hierbij geldt: as open as possible, as closed as necessary. Data uit privacygevoelig onderzoek kan dus gesloten blijven.
Big data betrouwbaar en veilig
Het koppelen van gegevens zorgt wereldwijd voor een steeds grotere hoeveelheid data die publiek toegankelijk is: big data. Om daar verantwoordelijk mee om te gaan zijn internationaal richtlijnen ontwikkeld, zoals FAIR en FACT. Het WDCC ziet erop toe dat onderzoek aan WUR daaraan voldoet en test dat aan de hand van praktijkvoorbeelden, of wel use cases.
FAIR: Findable-Accessible-Interoperable-Reusable
Data en metadata (info over onderzoeksomstandigheden, zoals gebruikte apparatuur) moeten gemakkelijk te vinden zijn voor andere mensen en computersystemen. Bovendien moeten de datasets eenvoudig te koppelen zijn én toegankelijk blijven voor toekomstige onderzoekers.
FACT: Fairness-Accuracy-Confidentiality-Transparency
De conclusies op basis van big data moeten nauwkeurig tot stand komen, redelijk zijn en eenduidig te interpreteren. Vertrouwelijke gegevens moeten vertrouwelijk blijven.
WUR-breed één lijn
Naast het doel van het WDCC om te voldoen aan de internationale eisen, wil het expertisecentrum binnen WUR één lijn trekken met betrekking tot datamanagement. Zo wordt een centrale manier van dataopslag geïntroduceerd via online programma’s iRODS en YODA. Voordeel hiervan is dat gegevens betrouwbaar en veilig worden opgeslagen voor nu en later – in tegenstelling tot opslag op losse USB-sticks en harde schijven. Maar ook: afdelingen kunnen makkelijker van elkaars data gebruik maken en dus samenwerken, binnen WUR, maar ook daarbuiten in binnen- en buitenland.
Leren van best practices binnen WUR
Het WDCC wil binnen WUR ‘communities’ ontwikkelen die kennis delen, gezamenlijk problemen oplossen en tot innovatieve ideeën komen. Een belangrijke stap hierin zijn de Special Interest Groups, waarvan er op dit moment twee actief zijn: één rondom 5G en mobiele data en één rondom Artificial Intelligence en Machine Learning. Talloze afdelingen bij WUR analyseren beelden: van video’s van wilde dieren tot satellietbeelden van landbouwakkers. Als één afdeling weet hoe ze een computer kan leren dat zelfstandig te doen, plukken anderen daar de vruchten van.
Lees hier meer over in het interview met Erik van den Bergh.