De novo sastavljanje genoma i metagenoma

Trajanje projekta: 2018 - 2023

FinanciranjeHrvatska zaklada za znanost   

Suradnja: Niranjan Nagarajan (A*STAR GIS, Singapore)

Prvi moderni alat za sastavljanje genoma proizvela je Celera 2001. godine za sastavljanje prve verzije ljudskog genoma. Od tada su mnoge metode za sastavljanje genoma razvijene i korištene, ali konačni genomi visoke preciznosti još uvijek zahtijevaju dugotrajan angažman istraživačkih skupina i dugotrajno ručno provjeravanje i prepravljanje. Najveći izazov u proizvodnji visoko preciznih i neprekinutih sastavljenih genoma su dugi nizovi ponavljajući regija. Nove i nadolazeće tehnologije za sekvenciranje tvrtki Pacific Biosciences i Oxford Nanopore Technologies daju nam nadu da je automatizacija postupka sastavljaja genoma moguća. Nove tehnologije proizvode očitanja velike duljine, ali i velikog postotka pogreške. Duljina proizvedenih očitanja može premašiti i nekoliko stotina tisuća nukleotida, što bi trebalo biti dovoljno za ispravnu rekonstrukciju većine ponavljajućih dijelova genoma. Međutim, znanstvena zajednica još uvijek ima značajne poteškoće prilikom sastavljanja većih genoma (genoma životinja i biljaka) te prilikom sastavljanja genoma mikrobnih zajednica. Metode za sastavljanje obično koriste pristup utemeljen na grafovima. Grafovi se grade spajajući očitanja koja se preklapaju, a zatim se heurističkim metodama traži put kroz graf koji će svako očitanje obići samo jednom. To je često nemoguće zbog petlji u grafu, uzrokovanih neispravnim preklapanjima i ponavljajućim djelovima genoma. To je posebno izraženo kod dugih genoma koji se sastoje od većeg broja kromosoma te kod metagenomeskih uzoraka koji sadrže od desetak pa do nekoliko stotina organizama. Glavni cilj ovog projekta jest razviti metode pomoću kojih koje će se proizvesti (i) potpuni i precizni dugi genomi te (ii) genomi organizama iz metagenomskog uzorka. Da bi to postigli planiramo razviti nekoliko metoda utemeljenih na grafovima i strojnom učenju pomoću kojih ćemo detektirati neispravna preklapanja.

Projektni tim

Članovi projekta:

  • Prof. dr. sc. Mile Šikić - voditelj
  • Izv. prof. dr. sc. Igor Mekterović
  • Doc. dr.sc. Krešimir Križanović
  • Dr. sc. Niranjan Nagarajan (A*STAR GIS, Singapore)
  • Dr. sc. Nino Antulov-Fantulin (ETH Zurich)
  • Filip Tomas - doktorand
  • Josipa Lipovac - doktorand
  • Rafael Josip Penić - doktorand

Suradnici sa drugih institucija: 

  • Prof. Jianjun Liu, Genome Institute of Singapore, A*STAR Singapore
  • Prof. Ken Wing Kin Sung, National University of Singapore
  • Dr. Hwee Kuan Lee, Bioinformatics Institute, A*STAR Singapore
  • Dr. Mike Vella, NVIDIA
  • Prof. Christophe Dessimoz (University of Lausanne)
  • Prof. Marc Robinson-Rechavi (University of Lausanne)
  • Izv. prof. Petra Korać (Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet, Biološki odsjek)
  • Prof. Karin Kovačević Ganić (Sveučilište u Zagrebu, Prehrambeno-biotehnološki fakultet)
  • Izv. prof. Antonio Starćević (Sveučilište u Zagrebu, Prehrambeno-biotehnološki fakultet)

Publikacije

Radovi u znanstvenim časopisima:

Izlaganja na znanstvenim skupovima:

  • Huang, Megan; Šikić, Mile; Influence of Chimeric Sequences on Metagenome Assembly // Sixth International Workshop on Data Science Abstract Book, Virtualna konferencija(2021)
  • Bosnić, Filip; Šikić, Mile; Finding Hamiltonian cycles with graph neural networks // Sixth International Workshop on Data Science Abstract Book, Virtualna konferencija(2021)
  • Josip Marić; Sylvain Riondet; Krešimir Križanović; Niranjan Nagarajan; Mile Šikić; Benchmarking metagenomic classification tools for long read sequencing data // 28th International Conference on Intelligent Systems for Molecular Biology (ISMB) 2020, Virtualna konferencija(2020)
  • Vrček, Lovro; Huang, Megan Hong Hui; Vaser, Robert; Šikić, Mile; Deep learning approach to determining the type of long reads // International Conference on Intelligent Systems for Molecular Biology 2020, Virtualna konferencija(2020)
  • Stanojević Dominik, Šikić Mile; Detecting Base Modifications in DNA Sequence // Book of Abstracts of Fifth International Workshop on Data Science, Zagreb, Republika Hrvatska(2020)
  • Vrček, Lovro; Huang, Megan Hong Hui; Vaser, Robert; Šikić, Mile; Deep learning approach to determining the type of long reads // International Conference on Intelligent Systems for Molecular Biology 2020, Virtualna konferencija(2020)
  • Stanojević Dominik, Šikić Mile; Detecting Base Modifications in DNA Sequence // Book of Abstracts of Fifth International Workshop on Data Science, Zagreb, Republika Hrvatska(2020)
  • Vrček, Lovro; Veličković, Petar; Šikić, Mile; A step towards neural genome assembly // NeurIPS 2020 Learning Meets Combinatorial Algorithms Workshop, Virtualna konferencija(2020)
  • Robert Vaser i Mile Šikić, Yet another de novo genome assembler, 2019, 11th International Symposium on Image and Signal Processing and Analysis (ISPA)
  • Sara Bakić, Luka Požega, Robert Vaser i Mile Šikić, Assessing sequencing data for genome assembly, 2019, 27th Conference on Intelligent Systems for Molecular Biology and the 18th European Conference on Computational Biology, poster
  • Marić, J.; Šikić, M. Approaches to metagenomic classification and assembly // MIPRO, Biomedical Engineering, Opatija: IEEE, 2019.
  • Vrček, Lovro; Šikić, Mile; Supervised learning approach to long read classification // Fourth International Workshop on Data Science Abstract Book Zagreb, Hrvatska, 2019. str. 71-72, poster

Doktorske disertacije:

  • Robert Vaser, Algorithms for de Novo Assembly of Large Genomes, 2019, (pdf)

Diplomski i završni radovi:

  • Martinović, I. Combining protein and RNA structures information in developing new scoring functions (2022) (pdf)
  • Šarić, J. Evaluation of RNA Atom Distance Prediction Models (2022) (pdf)
  • Lipovac, J. Detection of Modified Nucleotide Clusters in Nanopore Sequenced RNA Reads (2021) (pdf)
  • Penić, R.J. Deep Learning Model of Nanopore Sequencing Pore (2021) (pdf)
  • Deur, S. Detection of Modified Nucleotides Using Nanopore Sequencing and Deep Learning Methods (2021) (pdf)
  • Bakić, S. Rapid Microbe Detection Using Deep Learning (2021) (pdf)
  • Pavlić, S. DNA Nanopore Sequencing Basecaller (2021) (pdf)
  • Pratljačić, S. Bzo preklapanje visoko pouzdanih jednomolekularnih očitanja (2021) (pdf)
  • Klobučar, I. Struktura podataka za efikasno spremanje očitanja dobivenih sekvenciranjem genoma (2021) (pdf)
  • Rašić, M. Poopćenje algoritma za poravnanje parcijalnog uređaja (2021) (pdf)
  • Staver, M. Rapid Alignment of High-Fidelity Sequencing Data (2021) (pdf)
  • Babojelić, D. Overlapping Single Molecule High-Fidelity Sequencing Data (2020)
  • Paulinović, M. Microbe Detection Using Signal Processing and Locality Sensitive Hashing (2020)
  • Brekalo, T. De Novo Metagenome Assembly Using Third Generation Sequencing Data (2020)
  • Martinović, I. Pipeline for Detection Clusters of Modified Nucleotides in Nanopore Sequenced RNA Reads (2020)
  • Yatsukha, R. De Novo Diploid Assembly Using Third-Generation Sequencing Data (2020)
  • Wolf, F. Popravljanje djelomično sastavljenoga genoma pomoću Hi-C očitanja (2020)
  • Floreani, F. Classification of 1D-Signal Types Using Deep Learning (2019)
  • Lipovac, J. Ocjena alata za identifikaciju vrsta u metagenomskim uzorcima (2019)
  • Batić, D. Mapiranje slijeda na graf (2019)
  • Pongračić, K. Mapiranje dugačkih očitanja (2019)
  • Pavlić, S. Mapiranje kratkih očitanja (2019)
  • Penić, R. J. Izgradnja biblioteke za poravnavanje parova dugačkih RNA očitanja (2019)
  • Kosier, S. Pronalaženje varijanti gena iz podataka dobivenih sekvenciranjem (2019)
  • Relić, B. Klasifikacija očitanja koristeći metode dubokog učenja (2019)
  • Bakić, S. De novo sastavljanje genoma vođeno referencom (2019)
  • Vrček, L. Poliranje DNA slijeda koristeći metode dubokog učenja (2019)
  • Požega, L. Gornja granica u sastavljanju genoma (2019)