Longread
Doorbraak in wereldwijd uitwisselen data plantenveredeling
Voor de enorme groei in toepassingen van kunstmatige intelligentie is toegang tot data cruciaal. Zonder data geen toepassingen. Recent is een doorbraak (of eigenlijk twee) bereikt die de tot nu toe vooral gesloten verzamelingen experimentele data van bedrijven, overheden, en onderzoeksinstellingen kan openen voor gebruik. Dit opent de weg naar efficiënt en transparant onderzoek voor betere gewassen, die bijvoorbeeld beter bestand zijn tegen klimaatverandering, of minder bestrijdingsmiddelen vragen. Lees hoe WUR bijdraagt aan Open Science.
Hoe maak je data uit onderzoek uitwisselbaar op wereldschaal? Wat spreek je af om de gegevens uit (veld)onderzoek, oftewel experimentele data, zo op te schrijven dat iedereen in de wereld er gebruik van kan maken? Dat is precies waar onderzoeker plantenveredeling Richard Finkers al jarenlang aan werkt samen met een grote groep internationale onderzoekers.
Data driven science
Richard Finkers is van origine plantenveredelaar, maar richt zich tegenwoordig vooral op bioinformatica en big data. Hij houdt zich nu bezig met ‘datagedreven science’ zoals hij zelf omschrijft. Finkers: “Plantveredelaars willen planten verbeteren door veredeling. Uit die veredelingsexperimenten komen steeds meer data. Die info willen we allemaal meenemen in het veredelingsproces. Maar voor een individu is dat bijna niet meer te overzien en is het verwerken van die vele data niet meer te doen. Om die reden automatiseren we zo veel mogelijk. Als je gegevens uit een computer wilt halen of aan anderen wil voorleggen, dan zijn eenduidige termen nodig om gegevens te kunnen uitwisselen. Daarom moet je onderling afspraken maken ‘waar hebben we het over?’ Dat is een eerste stap richting uitwisselbaarheid.”
MIAPPE maakt data uitwisselbaar
Op dit gebied is nu een doorbraak bereikt met de publicatie van een datastandaard genaamd MIAPPE. Deze afkorting staat voor Minimum Information About a Plant Phenotyping Experiment. MIAPPE is eigenlijk een set afspraken over de beschrijving en documentatie van experimenten op het gebied van plantfenotypering (fenotype is de uiterlijke verschijningsvorm van de plant, red).
Finkers legt uit: “Deze datastandaard beschrijft wat we opschrijven om een experiment te begrijpen; de data en metadata van de data. Bijvoorbeeld in een aardappelveldproef noteren we het gewicht van knollen in kg. Of als het in andere stelsel gemeten wordt, zet je dat erbij, zodat de waarneming om te rekenen is. Je moet het zien als een soort taal die we afspreken voor dit soort experimenten. We hebben in MIAPPE afgesproken hoe je een observatie het beste vastlegt, zodat iedereen weet waar je het over hebt. Alleen op die manier kunnen die gegevens door iedereen worden gebruikt.”
Juist het vertalen van eenheden zorgt voor onduidelijkheid en misverstanden, en staat vaak grootschalig en efficiënt gebruik van data in de weg. Vele organisaties, vooral vanuit de EU, zien de voordelen van deze afspraken en hebben samengewerkt aan MIAPPE. De eerste versie is gepubliceerd in 2015 en in januari 2020 is een aangepast versie verschenen. Het werk aan MIAPPE werd gefinancierd vanuit de infrastructuur Elixir. Finkers vertelt dat er nog steeds collega’s werken aan verbeteringen in deze standaard, bijvoorbeeld vanuit het EU phenotyping network.
Niet alleen voor plantenveredelaars
Volgens Willem Jan Knibbe, directeur Wageningen Data Competence Center (WDCC) is het gebruik van een datastandaard als MIAPPE een belangrijke doorbraak, en niet alleen interessant voor plantenveredelaars. Knibbe: “In Wageningen onderzoeken we een zeer complex domein vol onderlinge verbanden. Data bieden ons houvast om dit domein steeds beter te doorgronden. Elk deel van dit domein kent zijn eigenaardigheden, ook op het gebied van het verzamelen van data. Als het ons lukt om de onderlinge toegankelijkheid van die data te verbeteren dan opent dat fantastische mogelijkheden voor computer gebaseerd onderzoek. MIAPPE laat zien hoe het met wereldwijd actieve grote spelers mogelijk is toe te werken naar uitwisselbaarheid. Het is dus een prachtig voorbeeld hoe we in Wageningen op weg zijn naar Open Science.”
Breeding API (BrAPI)
Zijn die datasets gestandaardiseerd en uitwisselbaar gemaakt, bijvoorbeeld met behulp van MIAPPE, dan volgt een volgende stap in het proces. Hoe maak je data uitwisselbaar met computersoftware? Hiervoor wordt vaak gebruik gemaakt van een Application Programming Interface (API). Een internationale groep onderzoekers heeft voor de plantenveredeling afspraken ontwikkeld om data uit te wisselen; de zogenaamde Breeding API oftewel BrAPI. BrAPI is een technische beschrijving hoe onderzoekers veredeling onderling data (over fenotype en genotype) geautomatiseerd uitwisselen tussen computers. Alle betrokken veredelaars, computerwetenschappers, biometrici, etc. hebben twee keer per jaar tijdens hackatons deze uitwisselingstaal geoptimaliseerd. In 2019 is BrAPI wereldkundig gemaakt in een publicatie.
Finkers vat de ideale verwerking van data uit een veldexperiment als volgt samen: “De data uit dat experiment leggen we vast in documenten, zoals we dat in MIAPPE hebben afgesproken. Voor de uitwisseling maken we dan gebruik van BrAPI. Door deze internationale afspraken heb je niet alleen eenheid op wereldniveau, en kun data uitwisselen, maar je kunt ook denken aan praktische toepassingen. Als je op deze manier werkt, kun je met je smartphone (bijvoorbeeld via de app Field Book) in Afrika het veld ingaan en via BrAPI data invoeren in een database. Zo zijn er meerdere apps ontwikkeld.”
Wat brengt uitwisselbaarheid?
Volgens Finkers heeft het uitwisselen van data wereldwijd toegevoegde waarde voor iedereen. “Info die mondiaal wordt verzameld, maakt het mogelijk om in de veredeling tot betere keuzes te komen. Beschikbaarheid van data scheelt bovendien in het aantal extra experimenten dat nodig is. Ook is het voor onderzoekers tegenwoordig vaak een verplichting richting hun financiers. Bij al het onderzoek dat bijvoorbeeld door het NWO wordt gefinancierd, wordt er een datamanagementplan gevraagd, zodat de gegevens uit het onderzoek hergebruikt kunnen worden. Als je werkt met publiek/privaat geld moeten je gegevens wel uitwisselbaar zijn. Transparantie en uitwisseling wordt steeds meer een must.”
Hij constateert dat er, net er als bij alle nieuwe ontwikkelingen early adopters zijn, die de voordelen van de extra inspanning zien; een middengroep, die het nut nog niet direct ziet; en een groep die een barrière voelt. Die laatste groep is bang dat ze alleen gegevens weggeven en er niets voor terugkrijgen, aldus Finkers. Voor hen heeft hij een aantal voorbeelden (zie artikel met cases) waar het goed kan werken. Ook adviseert hij hen de BrAPI website te bezoeken om te lezen hoe uitwisselen van gegevens veredelaars en onderzoeker kan helpen.
Data hergebruiken
Je kunt je afvragen of hergebruik van data zinnig is. Maar een veredelingsbedrijf doet eigenlijk niet anders. Zij bouwen continu door op materiaal en kennis dat ze al hebben uit het verleden. In het onderzoek is die continuïteit minder vanzelfsprekend legt Finkers uit. Onderzoek wordt veelal ad hoc gefinancierd door overheid en partners. Vaak in projecten die na een paar jaar worden afgesloten. “Wat is er mooier dan dat je die gegevens in een ander onderzoek kunt hergebruiken, en niet steeds weer het wiel opnieuw moet uitvinden. Juist met steeds betere methoden, zoals in machine learning, opent dit allerlei perspectieven op veelbelovend onderzoek.
Tot nu toe was dat alleen niet zo eenvoudig. Als je oude data gaat gebruiken, ben je driekwart van je tijd kwijt om te doorgronden wat er is gedaan. Als je daarachter bent, moet je de data nog in een vorm gieten om mee te werken. Afspraken hierover kunnen een enorme tijdwinst opleveren en als onderzoeker kan je dan vrij eenvoudig doorborduren op proeven die al eens gedaan zijn. Persoonlijk zie ik die winst vooral voor opbrengstproeven in relatie tot stabiliteit: welke plant levert meer opbrengst maar is ook over langere periode betrouwbaar daarin? Dat soort experimenten zijn voor ons slecht te doen. Die vragen om veel waarnemingen, veel grondsoorten, veel jaren en veel verschillende omstandigheden. Je hebt een grote hoeveelheid data nodig om inzicht te krijgen welke cultivars onder alle omstandigheden stabiel zijn.
Zo lijkt het mij als veredelaar reuze interessant om data te gebruiken van bijvoorbeeld zetmeelverwerker AVEBE. Dit bedrijf heeft legio teeltgegevens van aandeelhouders over lange periodes, en die zijn gekoppeld aan zetmeelpercentages en zetmeelkwaliteit per aardappelras.”
Biometris en precisielandbouw
Zo geeft Finkers een ander voorbeeld van WUR-collega Maikel Verouden, onderzoeker bij de Business Unit Biometris. Verouden maakt voor de verwerking van geno- en fenotypische data gebruik van R, software voor statistische berekeningen en grafische weergave. Samen met collega’s bij Biometris heeft Verouden, o.a. voor het Integrated Breeding Platform (ook een partner in BrAPI), een statistische genetische pijplijn ontwikkeld voor genomische selectie en voorspelling van het fenotype op basis van het genotype van nieuw materiaal.
De geno- en fenotypische data die nodig zijn voor de pijplijn, kunnen komen uit databases, die compatibel zijn met de BrAPI standaard. Hiervoor heeft Verouden samen met Reinhard Simon, werkzaam bij Plant Breeding, het software package BrAPI R, ontwikkeld, die de koppeling verzorgd tussen R en BrAPI compatibele databases. Hiermee kan hij heel eenvoudig data uit databases halen om verder te analyseren. Dit is volgens Finkers een mooi voorbeeld van universele (en eenvoudige) uitwisseling via BrAPI.
Ook ziet Finkers mogelijkheden in het gebruik van data uit de precisielandbouw, een onderwerp waar WUR-collega Corne Kempenaar aan werkt. Bij die vorm van landbouw leggen boeren heel veel data uit hun bedrijfsproces vast, soms tot op detailniveau. Zo wordt bijvoorbeeld de opbrengst van een gewas al gemeten tijdens de oogst op het veld.
Finkers: “Die precisielandbouw genereert veel datastromen die ik in de toekomst graag zou willen gebruiken. Met die data zou je virtuele veredelingsexperimenten op kunnen zetten.”
Lange adem
Finkers rekent erop dat meer en meer mensen het nut gaan inzien van het efficiënt delen van data. Ondertussen bouwen Finkers en zijn collega-onderzoekers in EU-projecten in samenwerking met Wageningen Data Competence Center (WDCC) door aan workflows waarin ze systemen als MIAPPE en BrAPI gebruiken en optimaliseren, allemaal op weg naar betere gewassen.
Finkers: “Voordat onderzoekers en bedrijven efficiënt en transparant wereldwijd data delen, zijn we vijf of misschien wel 10 jaar verder, een zaak van lange adem dus, maar ik ben blij dat WUR een steentje kan bijdragen aan deze ontwikkeling.”
Gepubliceerd: 11|6|2020