ReciMap: a pipeline to identify rearrangement borders between closely related genomes
Date
2024-03
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: Large genomic rearrangement events play a pivotal role in the evolutionary dynamics of
genomes and the process of speciation. Recognizing the necessity for a robust tool, this thesis
introduces ReciMap, a command line bioinformatics pipeline explicitly created to precisely identify
the borders of genomic rearrangement events between closely related genomes. The pipeline leverages
the reciprocal mapping of short, synthetic reads as a methodological approach.
The development of ReciMap is extensively detailed in this thesis. We demonstrate the pipeline’s
efficacy in accurately pinpointing the borders of rearrangement events with a resolution of
approximately 4 base pairs (bp). To validate the pipeline’s accuracy, we conduct thorough
comparisons of genomes with increasing evolutionary divergence, up to fifty thousand generations
apart.
Moreover, the versatility of ReciMap is showcased in its capability to incorporate novel methods
for the identification of synteny blocks. This feature broadens the utility of the pipeline,
allowing for a more comprehensive analysis of genomic architecture.
ReciMap is introduced as an open–source, command line–based tool, accessible to researchers and
practitioners alike. The repository for ReciMap is publicly available at the following URL:
https://github.com/casper-schutte/recimap
This research not only contributes a valuable computational resource to the field of bioinformatics
but also presents a novel approach to border identification in genomic
rearrangement events.
AFRIKAANSE OPSOMMING: Grootskaalse genomiese herrangskikking speel ’n sleutel rol in die evolusie van genome en in spesiasie. Gegewe die duidelike noodsaaklikheid vir ’n robuuste instrument, stel hierdie tesis ReciMap bekend, ’n terminaal–gebasseerde bioinformatika program wat geskep is om die grense van genomiese herskikkings tussen naby–verwante genome akkuraat te identifiseer. Die program maak gebruik van die wederkerige passing van kort, sintetiese sekwensies. Die ontwikkeling van ReciMap word breedvoerig beskryf in hierdie tesis. Ons demonstreer die program se doeltreffendheid om die grense van herrangskikkings akkuraat aan te dui met ’n resolusie van ongeveer 4 basispare. Ten einde die program se akkuraatheid te verifieer, voer ons deeglike vergelykings uit met genome wat toenemend evolusionˆer divergeer, met tot vyftig duisend generasie verskille. Die veelsydigheid van ReciMap demonstreer sy vermo¨e om nuwe metodes vir die identi- fikasie van sintenie blokke in te sluit. Hierdie eienskap vergroot die bruikbaarheid van die program en maak ’n meer omvattende ontleding van genoom argitektuur moont- lik. ReciMap word beskikbaar gestel as ’n oop–bron, terminaal–gebaseerde instrument wat toeganklik is vir navorsers. ReciMap is openbaar beskikbaar by die volgende URL: https://github.com/casper-schutte/recimap. Hierdie navorsing dra nie net ’n waardevolle berekenings hulpbron by tot die veld van bioinformatika nie, maar bied ook ’n nuwe benadering tot die identifikasie van grense in genomiese herrangskikkings.
AFRIKAANSE OPSOMMING: Grootskaalse genomiese herrangskikking speel ’n sleutel rol in die evolusie van genome en in spesiasie. Gegewe die duidelike noodsaaklikheid vir ’n robuuste instrument, stel hierdie tesis ReciMap bekend, ’n terminaal–gebasseerde bioinformatika program wat geskep is om die grense van genomiese herskikkings tussen naby–verwante genome akkuraat te identifiseer. Die program maak gebruik van die wederkerige passing van kort, sintetiese sekwensies. Die ontwikkeling van ReciMap word breedvoerig beskryf in hierdie tesis. Ons demonstreer die program se doeltreffendheid om die grense van herrangskikkings akkuraat aan te dui met ’n resolusie van ongeveer 4 basispare. Ten einde die program se akkuraatheid te verifieer, voer ons deeglike vergelykings uit met genome wat toenemend evolusionˆer divergeer, met tot vyftig duisend generasie verskille. Die veelsydigheid van ReciMap demonstreer sy vermo¨e om nuwe metodes vir die identi- fikasie van sintenie blokke in te sluit. Hierdie eienskap vergroot die bruikbaarheid van die program en maak ’n meer omvattende ontleding van genoom argitektuur moont- lik. ReciMap word beskikbaar gestel as ’n oop–bron, terminaal–gebaseerde instrument wat toeganklik is vir navorsers. ReciMap is openbaar beskikbaar by die volgende URL: https://github.com/casper-schutte/recimap. Hierdie navorsing dra nie net ’n waardevolle berekenings hulpbron by tot die veld van bioinformatika nie, maar bied ook ’n nuwe benadering tot die identifikasie van grense in genomiese herrangskikkings.
Description
Thesis (MSc)--Stellenbosch University, 2024.