Analysis of a neurochip array dataset to study Parkinson’s disease in a South African study collection
Date
2023-02
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University,
Abstract
ENGLISH ABSTRACT: Parkinson’s disease (PD) is an incurable, and complex neurodegenerative disease. Both genetic and environmental factors likely contribute to disease onset. Notably, while several pathogenic variants and susceptibility factors have been described in populations of Asian and European ancestry, such variants have seldom been identified in individuals from sub-Saharan Africa (SSA). This could be due to the limited number of studies investigating the genetic etiology of PD in SSA. To address this knowledge gap, the present study undertook the largest, to date, PD-focused genomewide association study (GWAS), and pathogenic variant screening study in SSA to identify possible susceptibility variants and pathogenic variants in South African PD cases. For this, we used raw genotyping data generated from a large collaborative project known as COmprehensive Unbiased Risk Factor Assessment for Genetics and Environment in Parkinson’s Disease (Courage-PD), whose goal was to identify PD-associated variants. The NeuroChip array, used to genotype the study participants, contained a total of 306,670 tagging variants and 179,467 custom content variants, including 349 associated with PD. The South African dataset genotyped on the array comprised 452 cases and 280 controls. We hypothesised that these individuals would harbour susceptibility and pathogenic variants. To test this hypothesis, the NeuroChip genotyping data was analysed using various bioinformatic approaches. The quality control (QC) and association analysis were completed using PLINK, and the results were visualized using R software. After excluding 15 individuals during the QC stage, population stratification analysis identified two ‘broad’ ancestral groups, designated as ‘European’ (n=497) and ‘non-European’ (n=220). For the GWAS, no variants reached the genome-wide significance threshold of 5x10-8 , however, variants were found that met the ‘suggestive significance’ criteria (1x10-5 ). A total of 17 variants of interest were identified in the European ancestral group (in the KHDRBS2, FGF14, and PDXK genes) and 2 variants of interest were identified in the non-European ancestral group (in the SYNPR and PDE10A genes). These variants highlighted possible new PD genes that are plausible candidates, but that will need to be confirmed in future, much larger GWAS. Thereafter, a Polygenic Risk Score (PRS) analysis was performed, using PRSice software, on the European ancestral group where the most predictive PRS explained 4.5% of the phenotypic variation (the phenotype being PD). Furthermore, use of the NeuroChip data as a method of pathogenic variant screening, revealed that all 12 variants detected by our group previously were also detected by the array. Moreover, an additional 16 variants in 14 individuals were prioritized as being potentially pathogenic, and warrant further study. Finally, screening of p.G2019S in the LRRK2 gene, arguably the most prevalent PD pathogenic variant, using high-resolution melt analysis, revealed a relatively low frequency of 1.2% (n= 8/689) in our entire PD study collection. Notably, this variant has not been identified in any PD individuals of African ancestry, to date. Collectively, this study highlights the importance of screening and studying underrepresented populations to uncover additional genetic-related risks for PD development. However, future largescale whole-genome sequencing and association studies, including all South African ancestral groups, will likely be needed to identify the remaining, potentially novel genetic factors contributing to PD in our local populations.
AFRIKAANS OPSOMMING: Parkinson se siekte (PS) is 'n ongeneeslike en komplekse neurodegeneratiewe siekte. Beide genetieseen omgewingsfaktore dra waarskynlik by tot PS. Alhoewel verskeie siekteveroorsakendevariante en vatbaarheidsfaktore in bevolkings van Asiatiese en Europese afkoms beskryf is, is sulke variante selde geïdentifiseer in Afrika-populasies suid van die Sahara (SSA). Dit kan as gevolg van die beperkte aantal studies wees, wat die genetiese etiologie van PS SSA ondersoek. Om hierdie gaping in die litteratuur aan te spreek poog die studie, die grootste tot op hede, om PSgefokusde genoomwye assosiasiestudie (GWAS) en patogeniesevariantsiftingstudie SSA te onderneem om moontlike vatbaarheidsvariante en patogene variante in Suid-Afrikaanse PS-pasiënte te identifiseer. Hiervoor het ons genotiperingsdata gebruik wat gegenereer is uit 'n groot samewerkingsprojek, bekend as COmprehensive Unbiased Risk Factor Assessment for Genetics and Environment in Parkinson's Disease (Courage-PD), met die doel om PS-geassosieerde variante te identifiseer. Die NeuroChip-array, wat gebruik word om die studiedeelnemers te genotipeer, bevat 'n totaal van 306,670 “tagging” variante en 179,467 “custom content” variante, insluitend 349 wat verband hou met PS. Die Suid-Afrikaanse datastel wat op die NeuroChip genoteer is, bestaan uit 452 PS-pasiënte en 280 kontroles. Ons het gepostuleer dat hierdie individue vatbaarheid- en patogenevariante sou hê. Om hierdie hipotese te toets, is die NeuroChip-genotiperingsdata ontleed met behulp van verskillende bioinformatiese benaderings. Die kwaliteitskontrole (QC) en assosiasie-analise is met behulp van PLINK voltooi, en die resultate is met behulp van die R-sagtewarepaket gevisualiseer. Nadat 14 individue tydens die QC-stadium uitgesluit is, het bevolkingsstratifikasie-analise twee 'breë' voorvaderlike groepe geïdentifiseer, 'Europees' (n = 497) en 'nie-Europees' (n = 220). Vir die GWAS het geen variante die genoomwye betekenisvolledrempel van 5x10-8 bereik nie, maar variante is gevind wat neig tot hierdie betekenisvolledrempel. Altesaam 17 variante van belang is in die Europese voorvaderlike groep (in KHDRBS2-, FGF14- en PDXK-gene) geïdentifiseer en twee variante van belang, is in die nie-Europese voorvaderlike groep (in SYNPR- en PDE10A-gene) geïdentifiseer. Hierdie variante het moontlike nuwe PS-gene uitgelig wat waarskynlike kandidate is, maar wat in die toekoms met veel groter GWAS bevestig sal moet word. Daarna is 'n Polygenic Risk Score (PRS) analise uitgevoer op die Europese groep, met behulp van PRSice. Die mees waarskynlike PRS het 4.5% van die fenotipiese variasie verduidelik (die fenotipe was PS). Verder het die gebruik van die NeuroChip-data as 'n metode van patogenevariantsifting aan die lig gebring dat al 12 variante wat voorheen deur ons groep opgespoor is, ook deur die NeuroChip opgespoor is. Daarbenewens is 'n bykomende 16 variante in 14 individue geprioritiseer as waarskynlik patogenies, en regverdig verdere ondersoek. Laastens is die sifting van p.G2019S in die LRRK2-geen, waarskynlik die mees algemene PS-patogene variant, met behulp van hoë resolusie smeltanalise voltooi. 'n Relatief Stellenbosch University https://scholar.sun.ac.za v lae frekwensie van 1.2% (n = 8/689) is in ons hele PS studieversameling gevind. Hierdie variant is tot op hede nog nie by enige PS-individue van Afrika-afkoms geïdentifiseer nie. Gesamentlik beklemtoon hierdie studie die belangrikheid daarvan om onderverteenwoordigde populasies te ondersoek en te bestudeer om addisionele genetiese verwante risiko's vir PS-ontwikkeling te identifiseer. Toekomstige grootskaalse volledigegenoomvolgordebepaling en assosiasiestudies, wat alle Suid-Afrikaanse populasie groepe insluit, sal waarskynlik nodig wees om die oorblywende, potensieel nuwe genetiese faktore te identifiseer wat tot PS in ons bevolking bydra..
AFRIKAANS OPSOMMING: Parkinson se siekte (PS) is 'n ongeneeslike en komplekse neurodegeneratiewe siekte. Beide genetieseen omgewingsfaktore dra waarskynlik by tot PS. Alhoewel verskeie siekteveroorsakendevariante en vatbaarheidsfaktore in bevolkings van Asiatiese en Europese afkoms beskryf is, is sulke variante selde geïdentifiseer in Afrika-populasies suid van die Sahara (SSA). Dit kan as gevolg van die beperkte aantal studies wees, wat die genetiese etiologie van PS SSA ondersoek. Om hierdie gaping in die litteratuur aan te spreek poog die studie, die grootste tot op hede, om PSgefokusde genoomwye assosiasiestudie (GWAS) en patogeniesevariantsiftingstudie SSA te onderneem om moontlike vatbaarheidsvariante en patogene variante in Suid-Afrikaanse PS-pasiënte te identifiseer. Hiervoor het ons genotiperingsdata gebruik wat gegenereer is uit 'n groot samewerkingsprojek, bekend as COmprehensive Unbiased Risk Factor Assessment for Genetics and Environment in Parkinson's Disease (Courage-PD), met die doel om PS-geassosieerde variante te identifiseer. Die NeuroChip-array, wat gebruik word om die studiedeelnemers te genotipeer, bevat 'n totaal van 306,670 “tagging” variante en 179,467 “custom content” variante, insluitend 349 wat verband hou met PS. Die Suid-Afrikaanse datastel wat op die NeuroChip genoteer is, bestaan uit 452 PS-pasiënte en 280 kontroles. Ons het gepostuleer dat hierdie individue vatbaarheid- en patogenevariante sou hê. Om hierdie hipotese te toets, is die NeuroChip-genotiperingsdata ontleed met behulp van verskillende bioinformatiese benaderings. Die kwaliteitskontrole (QC) en assosiasie-analise is met behulp van PLINK voltooi, en die resultate is met behulp van die R-sagtewarepaket gevisualiseer. Nadat 14 individue tydens die QC-stadium uitgesluit is, het bevolkingsstratifikasie-analise twee 'breë' voorvaderlike groepe geïdentifiseer, 'Europees' (n = 497) en 'nie-Europees' (n = 220). Vir die GWAS het geen variante die genoomwye betekenisvolledrempel van 5x10-8 bereik nie, maar variante is gevind wat neig tot hierdie betekenisvolledrempel. Altesaam 17 variante van belang is in die Europese voorvaderlike groep (in KHDRBS2-, FGF14- en PDXK-gene) geïdentifiseer en twee variante van belang, is in die nie-Europese voorvaderlike groep (in SYNPR- en PDE10A-gene) geïdentifiseer. Hierdie variante het moontlike nuwe PS-gene uitgelig wat waarskynlike kandidate is, maar wat in die toekoms met veel groter GWAS bevestig sal moet word. Daarna is 'n Polygenic Risk Score (PRS) analise uitgevoer op die Europese groep, met behulp van PRSice. Die mees waarskynlike PRS het 4.5% van die fenotipiese variasie verduidelik (die fenotipe was PS). Verder het die gebruik van die NeuroChip-data as 'n metode van patogenevariantsifting aan die lig gebring dat al 12 variante wat voorheen deur ons groep opgespoor is, ook deur die NeuroChip opgespoor is. Daarbenewens is 'n bykomende 16 variante in 14 individue geprioritiseer as waarskynlik patogenies, en regverdig verdere ondersoek. Laastens is die sifting van p.G2019S in die LRRK2-geen, waarskynlik die mees algemene PS-patogene variant, met behulp van hoë resolusie smeltanalise voltooi. 'n Relatief Stellenbosch University https://scholar.sun.ac.za v lae frekwensie van 1.2% (n = 8/689) is in ons hele PS studieversameling gevind. Hierdie variant is tot op hede nog nie by enige PS-individue van Afrika-afkoms geïdentifiseer nie. Gesamentlik beklemtoon hierdie studie die belangrikheid daarvan om onderverteenwoordigde populasies te ondersoek en te bestudeer om addisionele genetiese verwante risiko's vir PS-ontwikkeling te identifiseer. Toekomstige grootskaalse volledigegenoomvolgordebepaling en assosiasiestudies, wat alle Suid-Afrikaanse populasie groepe insluit, sal waarskynlik nodig wees om die oorblywende, potensieel nuwe genetiese faktore te identifiseer wat tot PS in ons bevolking bydra..
Description
Thesis (MSc)--Stellenbosch University, 2023.