Algoritmi za analizu podataka dobivenih sekvenciranjem genoma
Trajanje projekta: 2014 - 2017
Financiranje: Hrvatska zaklada za znanost
Suradnja: Niranjan Nagarajan (A*STAR GIS, Singapore)
Cilj projekta je razvoj točnih i brzih algoritama i alata za analizu podataka dobivenih sekvenciranjem genoma i transkriptoma. Naglasak projekta je na podacima dobivenim od uređaja za sekvenciranje 3. generacije koji proizvode dulja očitanja, manje točna očitanja. Temelj projekta su algoritmi za poravnavanje sljedova, algoritmi na grafovima i metode obrade signal. Te metode bit će upotrijebljene za sastavljanje genome, sastavljanje transkriptoma i pretraživanje baza bioloških sljedova. Algoritmi trebaju efikasno obraditi podatke dobivene od genoma sisavaca i biljaka (duljine preko 1 milijarde nukleotida). Posebna pažnja bit će stavljena na višejezgrenu, mnogojezgrenu (GPU – procesori na grafičkim karticama) i unutarjezgrenu (Intelov SSE – Streaming SIMD Extensions and AVX – Advaced Vector Extensions) paralelizaciju. Svi algoritmi bit će implementirani u C/C++ programskom jeziku. Implementirani algoritmi i alati će unaprijediti postojeće metode za analizu podataka dobivenih sekvenciranjem genoma i transkriptoma na način da će istraživači moći dobiti rezultate u kratkom vremenu i u slučaju ograničenih računalnih resursa. Rezultati projekta mogu utjecati na postojeću praksu istraživanja genoma, pomoći dizajnu novih medicinskih strategija i omogućiti brže i točnije analize i dijagnoze.
Projektni tim
Članovi projekta:
- Izv. prof. dr. sc. Mile Šikić - voditelj
- Prof. dr. sc. Branko Jeren - suradnik
- Prof. dr. sc. Damir Seršić - suradnik
- Doc. dr. sc. Ana Sović-Kržić - suradnica
- Dr. sc. Niranjan Nagarajan (A*STAR GIS, Singapore) - suradnik
- Dr. sc. Krešimir Križanović - poslijedoktorand
- Robert Vaser - doktorand
Suradnici sa drugih institucija:
- Dr. sc. Ivan Sović (Institut Ruđer Bošković)
- Dr. sc. Pauline C Ng (A*STAR GIS, Singapore)
- Prof. dr. sc. Christophe Dessimoz (University of Lausanne)
- Prof. dr. sc. Marc Robinson-Rechavi (University of Lausanne)
- Dr. sc. Julien Roux (Department of Biomedicine, University Hospital Basel)
- Amina Echchiki (Swiss Institute of Bioinformatics, Lausanne)
- Doc. dr. sc. Petra Korać (Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet, biološki odsjek)
- Prof.dr.sc. Karin Kovačević Ganić (Sveučilište u Zagrebu, Prehrambeno biotehnološki fakultet)
- Doc. dr. sc. Snježana Židovec Lepej (Klinika za infektivne bolesti "Dr. Fran Mihaljević")
- Martin Šošić - student
Publikacije
Radovi u znanstvenim časopisima:
- Krešimir Križanović, Amina Echchiki, Julien Roux, Mile Šikić; Evaluation of tools for long read RNA-seq splice-aware alignment // Bioinformatics (2017)
- Martin Šošić, Mile Šikić; Edlib: a C/C++ library for fast, exact sequence alignment using edit distance. // Bioinformatics (2017)
- Roberet Vaser, Ivan Sović, Niranjan Nagarajan, Mile Šikić; Fast and accurate de novo genome assembly from long uncorrected reads // Genome Research (2017)
- Robert Vaser, Dario Pavlović, Mile Šikić; SWORD - a higly efficient protein database search // Bioinformatics (2016) 32 (17)
- Ivan Sović, Krešimir Križanović, Karolj Skala, and Mile Šikić: Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads, Bioinformatics (2016) 32 (17)
- Ivan Sović, Mile Šikić, Andreas Wilm, Shannon Nicole Fenlon, Swaine Chen, Niranjan Nagarajan; Fast and sensitive mapping of nanopore sequencing reads with GraphMap // Nature Communications 7, 2016
- Robert Vaser, Swarnaseetha Adusumalli,Sim Ngak Leng, Mile Šikić; Pauline C. Ng, SIFT missense predictions for genomes . // Nature Protocols. 11 (2016) , 1; 1-9
- Matija Korpar, Martin Šošić, Dino Blažeka, Mile Šikić; SW#db: GPU-Accelerated Exact Sequence Similarity Database Search; PLoS One. 10 (2015)
Izlaganja na znanstvenim skupovima:
- Krešimir Križanović, Ivan Sović, Ivan Krpelnik, Mile Šikić; RNA Transcriptome mapping with Graphmap; Bioinformatics Research and Applications 13th International Symposium, ISBRA 2017
- Robert Vaser, Mile Šikić; Ra - Rapid de novo genome assembler, poster; ISMB/ECCB 2017
- Robert Vaser, Mile Šikić; Rala - Rapid layout module for de novo genome assembly, poster; ISMB/ECCB 2017
- Neven Miculinić, Marko Ratković, Mile Šikić; MinCall — MinION end2end convolutional deep learning basecaller; ECML-PKDD 2017, Skopje Macedonia
- Tomislav Šebrek, Jan Tomljanović, Josip Krapac, Mile Šikić; Read classification using semi-supervised deep learning; ECML-PKDD 2017, Skopje Macedonia
- Jan Tomljanović, Tomislav Šebrek, Mile Šikić; Unsupervised learning of sequencing read types; ICCBB 2017, Newark USA
- Krešimir Križanović, Mladen Marinović, Ana Bulović, Robert Vaser, Mile Šikić; TGTP-DB – a database for extracting genome, transcriptome and proteome data using taxonomy; Mipro 2016, DC VIS
- Robert Vaser, Dario Pavlović, Mile Šikić; SWORD—a highly efficient protein database search; ECCB 2016: THE 15TH EUROPEAN CONFERENCE ON COMPUTATIONAL BIOLOGY
- Andrej Novak, Krešimir Križanović, Alen Lančić, Mile Šikić; Some new results on assessment of Q-gram filter efficiency; 9th International Symposium on Image and Signal Processing and Analysis (ISPA) 2015
Doktorske disertacije:
- Ivan Sović, Algoritmi za de novo sastavljanje genoma iz sekvenciranih podataka treće generacije - doktorska disertacija, 2016 (pdf)
Diplomski i završni radovi:
- Marko Ratković, Model dubokog učenja za određivanje očitanih baza dobivenih uređajem za sekvenciranje MinION - diplomski rad, 2017 (pdf)
- Jan Tomljanović, Identifikacija tipova 1D-signala pomoću nenadziranog dubokog učenja - diplomski rad, 2017 (pdf)
- Tomislav Šebrek, Identifikacija tipova 1D-signala pomoću polu-nadziranog dubokog učenja - diplomski rad, 2017 (pdf)
- Antonio Jurić, Poravnanje dugačkih RNA očitanja - završni rad, 2016 (pdf)
- Ivan Krpelnik, Poravnanje RNA očitanja na poznate gene - završni rad, 2016 (pdf)
- Luka Škugor, Stablo Bloomovih filtara za spremanje sljedova - završni rad, 2016 (pdf)
- Mario Kostelac, De novo Assembly Using Long Error-prone Reads - diplomski rad, 2016 (pdf)
- Luka Šterbić, EAGLER - Eliminating Assembly Gaps by Long Extending Reads - diplomski rad, 2015 (pdf)
- Robert Vaser, De novo transcriptome assembly - diplomski rad, 2015 (pdf)
- Josip Marić, Long Read RNA-seq Mapper - diplomski rad, 2015 (pdf)
- Marko Čulinović, Scaffolding using longerror-prone reads - diplomski rad, 2015 (pdf)
- Martin Šošić, An SIMD dynamic programming C/C++ Library - diplomski rad, 2015 (pdf)
- Dorija Humski, A reduced gene database for precision species detection - diplomski rad, 2015 (pdf)
- Dario Pavlović, Splice isoform identification from transcript graphs - diplomski rad, 2015 (pdf)