Nieuws

AI gaat geheimen van niet-coderende genen ontrafelen

article_published_on_label
15 mei 2024

Van slimme chatbots tot apps die hele teksten voor je kunnen schrijven. Kunstmatige Intelligentie (AI) duikt op steeds meer plekken op in ons leven. Onderzoeker Michael Schon van Wageningen University & Research ontwerpt een AI-tool die vergelijkingen van niet-coderend RNA op plantengenomen kan uitvoeren. De tool moet helpen om in de toekomst sneller en eenvoudiger nieuwe rassen te ontwikkelen die bijvoorbeeld beter bestand zijn tegen droogte of ziekten. Voor zijn onderzoek ontvangt Schon een Veni-beurs.

Eiwitten vormen de bouwstenen voor cellen in organismen. De instructies voor het maken van deze eiwitten worden afgegeven door RNA's in genen. Naast deze coderende RNA’s produceren sommige genen ook niet-coderende RNA's: RNA dat geen instructies bevat om een eiwit te maken. Dit type RNA speelt ook een belangrijke rol in de ontwikkeling van organismen, zegt Michael Schon. "Ze kunnen bijvoorbeeld genen activeren of juist uitzetten. Dit heeft invloed op hoe een plant eruitziet en over welke eigenschappen deze beschikt. Sommige belangrijke niet-coderende RNA’s zijn bepalend voor of een plant überhaupt tot wasdom komt."

Verwanten binnen dezelfde familie

Niet-coderend RNA kan mogelijk ook onthullen waarom een plantensoort tot eenzelfde familie behoort, maar toch andere kenmerken heeft. In eerder onderzoek legde Schon al het niet-coderende RNA bloot van de Arabidopsis thaliana (zandraket). Deze plant wordt binnen de plantenwetenschap gebruikt als modelorganisme. Schon: “De Arabidopsis behoort, net als broccoli, bloemkool en koolrabi, tot de familie Brassicaceae. Deze wordt ook wel de mosterdfamilie of kruisbloemenfamilie genoemd. Het is echter moeilijk om het niet-coderend RNA van Arabidopsis te vergelijken met dat van andere planten binnen de kruisbloemenfamilie, omdat bij eerdere analyses van genetisch materiaal (gen-annotaties) vooral is gekeken naar de coderende delen.”

Beperkte annotatie van niet-coderend RNA

Dat betekent dat voor een vergelijking tussen de planten van elk gewas een afzonderlijke gen-annotatie moet worden gedaan voor het niet-coderende RNA. Schon zoekt in zijn Veni-project naar manieren om dit op een relatief snelle en eenvoudige manier te kunnen doen. “Voor planten binnen de kruisbloemenfamilie zijn meer dan 200 genomen beschikbaar. Omdat de niet-coderende stukjes niet goed georganiseerd (geannoteerd) zijn in de genomen, krijg je een enorme hoeveelheid data, bestaande uit miljoenen letters die de basen voor een DNA-molecuul vertegenwoordigen (A,C,T en G). Het is onmogelijk uit deze enorme berg data de niet-coderende delen met elkaar te vergelijken. Daarvoor zijn nieuwe strategieën en tools nodig. Die probeer ik te ontwikkelen.”

Een klein deel van elk genoom

Een van tools die Schon wil ontwikkelen, noemt hij GeneSketch. Hiervoor maakt hij gebruik van een methode genaamd Minimizer Sketch. Schon: “Het idee van de Minimizer Sketch is dat je niet kijkt naar het complete genoom, maar naar een klein deel ervan, een sketch. Hierdoor hoef je geen miljoenen, maar slechts een paar duizend karakters per genoom te kennen om ze met elkaar te vergelijken. De Minimizer Sketch is eerder ook toegepast bij onderzoek naar primaten, waar de mens van afstamt. De stamboom van onze voorouders bleek met behulp van sketches heel nauwkeurig te reconstrueren. Een sketch lijkt dus voldoende representatief voor het hele genoom en zou dus ook bruikbaar moeten zijn voor het vergelijken van genomen binnen de kruisbloemenfamilie.

Dezelfde technologie als ChatGPT

De technologie die Schon wil gebruiken voor de GeneSketch is dezelfde als die momenteel al wordt toegepast in andere AI-tools, zoals ChatGPT. Schon: “Deze technologie heet Transformers. Je kunt een Transformer bijvoorbeeld vragen een ontbrekend woord in een zin in te vullen. In eerste instantie krijg je dan een willekeurig woord, omdat de Transformer nooit eerder woorden heeft gezien. Maar als je ‘m traint op miljoenen voorbeelden door op patronen in de tekst te letten, leert hij langzaam de juiste woorden te raden. In plaats van voor menselijke taal kun je een Transformer ook trainen de taal van DNA te leren. Deze taal bestaat uit een tekst met zijn eigen patronen.”

Model moet getraind worden

Schon gaat de Transformer voor de GeneSketch trainen aandacht te besteden aan de patronen in DNA voor het voorspellen van niet-coderende genen. Bij het ontwikkelen hiervan komen volgens hem nog wel wat uitdagingen kijken. “Een belangrijke is de betrouwbaarheid. De Transformer is een relatief nieuwe technologie en kan nog weleens foutjes bevatten. Bij ChatGPT kan het bijvoorbeeld voorkomen dat verschillende stukken informatie bij elkaar worden gehaald die afzonderlijk wel kloppen, maar als geheel niet. Zulke foutieve output wil je natuurlijk voorkomen. Dat kan door training, maar dat kost veel tijd en geld. Daarnaast wil ik nog verder uitzoeken of ik het model helemaal vanaf nul ga opbouwen of dat ik ga voortbouwen op bestaande modellen.”

Potentie van de GeneSketch

Schon hoopt na het eerste jaar van het project – dat in oktober 2023 is gestart – een prototype te hebben van de GeneSketch. Deze wil hij gebruiken voor het maken van gen-annotaties voor de hele kruisbloemenfamilie. Behalve voor de onderzoekswereld kan ook de agrarische industrie veel baat hebben bij de tool, zegt Schon. “Het kan bijvoorbeeld zaadveredelaars op een snelle manier inzichten bieden over verwantschappen en de oorsprong van zaden en hoe gewassen door de eeuwen heen unieke eigenschappen hebben kunnen ontwikkelen. Op basis hiervan kunnen ze relatief eenvoudig aanpassingen doen, zoals het weerbaarder maken van gewassen tegen klimaatverandering. De potentiële impact kan dus groot zijn.”