Boek 5/Case: Open PHACTS

< Boek 5

Voor farmaceutisch onderzoek zijn veel en diverse in­for­matiebronnen beschikbaar. Met onder andere chemi­sche, farmacologische, (pre-)kli­­­ni­­sche en gene­ti­sche data, die zowel publiek toegankelijk als intern kunnen zijn. Vanwege de complexiteit van biologie, farmacologie en toxicologie is het belangrijk dat onder­zoekers alle databronnen in diverse biomedische cate­gorieën simultaan kunnen analyseren en doorzoeken. Vóór het Open PHACTS-project was dit niet mogelijk of extreem tijdrovend, maar dankzij semantische webstandaarden en Linked Data, is dat nu anders.

Open PHACTS biedt een semantisch platform waarin Linked Data en semantische webstandaarden worden toegepast om farmaceutisch onderzoek te ondersteunen. Dankzij de aandacht die deze publiek-private samenwerking heeft besteed aan ontologieën en woordenlijsten, gegevenslicenties en auteursrecht, is het nu mogelijk om een grote hoeveelheid biomedische open data te doorzoeken. Er bestaan letterlijk duizenden publieke biomedische databronnen, dus een zorgvuldige selectie was belangrijk om de meest nuttige daarvan in het systeem op te nemen. Deze selectie werd gemaakt aan de hand van relevante farmaceutische vragen die door een brede groep van industriële en academische onderzoekers werden geprioriteerd. Op dit moment bevat het systeem elf verschillende databronnen, meer dan vier miljard triples en de inhoud wordt continu uitgebreid met nieuwe data. Een van de laatste toegevoegde databronnen is SureCHEMBL, waarin specifieke moleculen uit meer dan veertien miljoen patenten automatisch geëxtraheerd worden. Het Open PHACTS-project heeft hier met automatische text mining nog eens miljoenen semantische links tussen moleculen en genen en ziektes gedefinieerd.

Naast de data zelf zijn er ook tientallen applicaties ont­wikkeld die gebruikmaken van de publiek toegankelijke Open PHACTS API. Een goed voorbeeld hiervan is een set met computationele workflows in de KNIME-software die een veel voorkomende vraag in farmaceutisch onderzoek beantwoorden: aan welke eiwitten binden de moleculen die in mijn fenotypisch experiment actief zijn? Met deze workflows kunnen onderzoekers binnen minuten de nuttige informatie uit alle beschikbare bronnen halen, iets wat daarvoor gemakkelijk dagen kon duren.

Open PHACTS heeft aangetoond dat het mogelijk is om diverse en grote biomedische databronnen met semantische technologie te converteren tot Linked Data. Het is van grote invloed geweest op de vele huidige activiteiten om biomedische data FAIR te maken (FAIR: Findable, Accessible, Interoperable, Reusable). Big data is belangrijk in farmaceutisch onderzoek en om de maximale waarde eruit te halen, zijn Linked Data-concepten essentieel.