Genomisten tietoaineistojen, kuten ihmisen perimää kuvaavien tietokantojen, tutkimus vaatii tehokasta tutkimusinfrastruktuuria. Uusi mittalaitetekniikka on haastanut tietoteknisen infrastruktuurin suorituskyvyn ja vaatii uudenlaisten pilvilaskennan työkalujen kehittämistä.
Aalto-yliopisto ja Tieteen tietotekniikan keskus CSC ovat kehittäneet osana Cloud Software -hanketta pilvilaskentaan perustuvia ratkaisuja genomisten tietoaineiston hyödyntämiseksi tehokkaasti. Yhteistyössä kehitetyt Hadoop-BAM ja SeqPig -ohjelmistot auttavat tutkijoita analysoimaan valtavia tietoaineistoja nopeuttaen työskentelyä ja mahdollistaen aivan uudenlaisten data-analyysien tekemisen.
Molekyylibiologian ja lääketieteen tutkimuksen kehittyessä jatkuvasti myös tutkimusympäristön on pysyttävä ajan tasalla. Uuden sukupolven sekvenointilaitteet tuottavat niin valtavia määriä mittausdataa, että perinteiset ohjelmistot eivät enää kykene sitä käsittelemään. Niinpä tärkeään asemaan ovatkin nousseet pilvilaskennan menetelmät, jotka mahdollistavat datan hajautuksen suurelle määrälle laskentapalvelimia. Erityisesti map-reduce -laskentamalli ja sen toteuttava avoimen lähdekoodin Hadoop-teknologia ovat keskeisiä nykypäivän massiivisesti hajautetussa laskennassa.
Hankkeessa on kehitetty Hadoop-BAM ja SeqPig -ohjelmistot, jotka mahdollistavat uusien sekvenointilaitteiden tuottaman mittausdatan käsittelyn tehokkaasti Hadoop-ympäristössä. Testeissä ohjelmat skaalautuivat hyvin kymmenille laskentapalvelimille ja jopa 180 prosessoriytimelle. Hadoop-BAM -ohjelmistosta raportoiva artikkeli on julkaistu arvostetussa Bioinformatics-lehdessä (https://sourceforge.net/projects/hadoop-bam/). Hankkeessa on myös kehitetty visualisointityökaluja osaksi CSC:n kehittämää Chipster-ohjelmistoa, jotta laskennan tuloksena syntyviä suuria tulosaineistoja voidaan havainnollistaa ja tarkastella vaivattomasti.
Kehitetyt menetelmät ja ohjelmistot ovat herättäneet jo kansainvälistä kiinnostusta. Hadoop-BAM on otettu käyttöön esimerkiksi tunnetussa Institute of Systems Biologyssa, jossa sitä on käytetty mittavan Cancer Genome Atlas -aineiston käsittelyyn. SeqPig-ohjelmisto on kehitetty yhteistyössä italialaisen CRS4-laskentakeskuksen kanssa.
Cloud Software Finland on Tieto- ja viestintätekniikan tutkimus Oy:n (TIVIT) huippuosaamiskeskittymän ohjelma, joka yhdistää yliopistojen ja yritysten osaamista pilviteknologioiden tutkimuksessa ja kehityksessä.
Lisätietoja:
Hadoop-BAM -ohjelmisto:
https://sourceforge.net/projects/hadoop-bam/
Chipster-ohjelmisto:
https://chipster.csc.fi/
Prof. Keijo Heljanko
Aalto-yliopisto
+358 9 4702 5134
Aleksi Kallio
Tieteen tietotekniikan keskus CSC
+358 50 3845158