Nieuws
Fiets fikst urgent probleem met dataopslag
Wat doe je als je onderzoeksdata snel moet overzetten, maar het netwerk niet meewerkt? Data-experts van WUR bedachten een oer-Hollandse oplossing die even simpel als effectief werkt. Nodig: een stapel harde schijven, een fiets en goede fietstassen.
Drie jaar geleden werd het Netherlands Plant Eco-Phenotyping Centre (NPEC) geopend, een joint venture van WUR en Universiteit Utrecht die beide een vestiging hebben. In de faciliteit op Wageningen Campus kan het uiterlijk - het fenotype - van planten tot op de nanometer in kaart worden gebracht.
De data die in NPEC elke dag wordt verzameld, moet natuurlijk veilig worden opgeslagen. Dit kwam in de knel door TraitSeeker, een robot die met hypermoderne camera’s en sensoren data in het veld verwerft. Na een dagje rondjes rijden over een akker staat er volgens Tim van Daalen, Data & sensor quality lead bij NPEC, al snel een terabyte aan data op de harde schijf van de robot. “De volgende dag wordt die weer naar een ander veld gebracht. Dus die harde schijf moet zo snel mogelijk leeg”, aldus Tim.
Scality
Standaardoplossingen om de data van de harde schijf te kopiëren naar het netwerk, bleken dat niet in één nacht voor elkaar te krijgen. Met als gevolg dat de veldrobot de volgende dag pas uren later kon worden ingezet. WUR Private cloud S3 object storage, een nieuwe opslagdienst die WUR gebruikt, bood uitkomst. Het voordeel van deze dienst is dat de bandbreedte van de verbinding heel efficiënt wordt gebruikt, waardoor data op maximale snelheid wordt overgezet. Toen ook de servers in de NPEC-faciliteit vol begonnen te raken, wilde Tim deze data daarom met de opslagdienst via de glasvezelkabel naar het datacentrum van WUR verhuizen.
Nu verplaatst Tim dagelijks moeiteloos grote hoeveelheden data over het netwerk. Toch lukte het maar niet om dit ook aan de praat te krijgen voor het verplaatsen van data uit NPEC. Lang verhaal kort: door bepaalde netwerkinstellingen van de leverancier van de opslagdienst, wordt de verbinding met het netwerk tijdens het overzetten verloren. Tim: “Die instellingen zijn niet even snel te wijzigen. Daardoor kregen we de data niet gekopieerd. En dat was wel ernstig, want de harde schijven zaten inmiddels vol.”
Omdenken
Hij nam contact op met het storage team van FB-IT. “We hebben een probleem, zei ik. “Via de glasvezelkabel lukt het niet, maar hoe dan wel?” Een sterk staaltje omdenken bracht de oplossing: “Iemand brengt op de fiets een stapel harde schijven naar NPEC toe, ik zet de onderzoeksdata uit de computers van de faciliteit op en vervolgens gaan de harde schijven in de fietstassen terug naar het datacentrum waar ze worden overgezet.”
Achter de schermen wordt hard gewerkt aan een definitieve oplossing. Ondertussen rijdt de ‘datafiets’ al drie maanden heen en weer. De truc bevalt zo goed dat Tim die graag onder de aandacht brengt van onderzoeksgroepen die ook met dataopslag worstelen: “Ik hoorde laatst van een groep die een flinke set data over de lijn wilden overzetten naar het datacentrum. Dat zou drie maanden duren, zeiden ze. Als je de fiets laat rijden, is het in een paar dagen klaar.”
Voorkomen dat onderzoek stilligt
Volgens Tim is WUR private cloud S3 object storage nog vrij onbekend bij onderzoekers. Maar dat gaat zeker veranderen, verwacht hij: “Ik zie veel mogelijkheden, vooral qua AI-toepassingen en het analyseren van grote dataverzamelingen. Maar nu hebben veel onderzoeksgroepen nog te maken met problemen in het overzetten van data. Even een glasvezelkabel leggen, is niet de oplossing; er moet ook van alles ingesteld en getest worden. Totdat die problemen structureel zijn opgelost, bieden we met de datafiets uitkomst. Daarmee kunnen we voorkomen dat onderzoek stilligt doordat de data-analyse vertraging oploopt.”
Met de private-cloudoplossing beschikt WUR over een nieuw opslagplatform, naast andere platforms zoals iSilon. Dat data op verschillende plekken is opgeslagen, kan onoverzichtelijk zijn. iRODS, een nieuwe ‘laag’ in de data-infrastructuur, verandert dat. Tim: “We kunnen alle opslagsystemen aan iRODS koppelen. Daar vind je jouw hele bestandenlijst, ongeacht waar die bestanden staan. Via iRODS kun je al die bestanden ophalen en andersom kun je er bestanden mee opslaan. Je kunt schrijfrechten per persoon per map aangeven en bijvoorbeeld ook instellen dat anderen bepaalde bestanden niet mogen verwijderen. Dat betekent ook dat wij niet langer ergens een back-up op hoeven te slaan.”
Metadata koppelen
Wat iRODS volgens Tim nog interessanter maakt, is dat hij metadata kan koppelen aan databestanden: “Ik kan bijvoorbeeld toevoegen dat de onderzoeker een proef heeft gedaan met fotosynthese-efficiëntie van een bepaald tomatenras. Dat die proef twee maanden heeft geduurd. En dat de resultaten publiekelijk beschikbaar zijn. Stel dat een andere onderzoeker dezelfde proef wil doen, dan kunnen wij aangeven dat die proef al eerder is gedaan. Zo kunnen we hopelijk onnodige, dure proeven voorkomen.”
Na twee jaar proefdraaien is de toepassing klaar voor grootschalig gebruik. Net als de datafiets kan ook iRODS het werk van onderzoekers een stuk eenvoudiger maken, verwacht Tim. Zijn advies? “Heb je problemen met dataopslag, blijf er dan niet mee worstelen. Er zijn altijd oplossingen mogelijk.”