A grammatical framework for the computational parsing of written Afrikaans sentences
Date
2019-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: This dissertation investigates which grammatical framework is best suited to computationally represent and parse written Afrikaans sentences. This knowledge is necessary to build a large scale Afrikaans treebank – a resource which does not yet exist, but is a critical prerequisite for advanced endeavours in
Afrikaans natural language processing. To gain this knowledge, we formally describe the building blocks of written Afrikaans from the perspectives of two major grammatical frameworks: constituency grammar and dependency grammar. Using these formal descriptions, we construct the first linguistically motivated treebank for Afrikaans, annotated with both constituency
and dependency graphs. We perform k-fold cross-validation on multiple variations of this treebank with four state of the art sentence parsers, and fine-comb the results. Combining insights from the formal descriptions of written Afrikaans with the data obtained during parser evaluation, we
conclude that dependency grammar outperforms constituency grammar at computationally representing the syntactic structure of written Afrikaans sentences under the conditions tested.
AFRIKAANSE OPSOMMING: Hierdie proefskrif ondersoek watter grammatikale raamwerk meer geskik is vir die rekenaarmatige voorstelling en ontleding van geskrewe Afrikaanse sinne. Hierdie kennis is nodig om ’n grootskaalse Afrikaanse boombank te bou – ’n hulpbron wat tans ontbreek, maar ’n kritiese voorvereiste is vir gevorderde Afrikaanse natuurlike taalverwerking. Ten einde hierdie kennis te verwerf, beskryf ons die boublokke van geskrewe Afrikaans formeel vanuit die perspektiewe van twee dominante grammatikale raamwerke: samestellingsgrammatiek (”constituency grammar”) en afhanklikheidsgrammatiek (“dependency grammar”). Hierdie formele beskrywings word ingespan om die eerste taalkundig gemotiveerde Afrikaanse boombank te bou wat annotasies vanuit beide grammatikale raamwerke bevat. Met verskeie variasies van hierdie boombank voer ons dan k-voudige kruisvalidering uit met vier toonaangewende sinsontleders en fynkam hul resultate. Aan die hand van hierdie resultate, sowel as die teoretiese insigte verkry tydens die formele beskrywings van geskrewe Afrikaans, lei ons af dat afhanklikheidsgrammatiek samestellingsgrammatiek oortref vir die rekenaarmatige voorstelling van die sintaktiese struktuur van geskrewe Afrikaanse sinne binne die getoetsde toestande.
AFRIKAANSE OPSOMMING: Hierdie proefskrif ondersoek watter grammatikale raamwerk meer geskik is vir die rekenaarmatige voorstelling en ontleding van geskrewe Afrikaanse sinne. Hierdie kennis is nodig om ’n grootskaalse Afrikaanse boombank te bou – ’n hulpbron wat tans ontbreek, maar ’n kritiese voorvereiste is vir gevorderde Afrikaanse natuurlike taalverwerking. Ten einde hierdie kennis te verwerf, beskryf ons die boublokke van geskrewe Afrikaans formeel vanuit die perspektiewe van twee dominante grammatikale raamwerke: samestellingsgrammatiek (”constituency grammar”) en afhanklikheidsgrammatiek (“dependency grammar”). Hierdie formele beskrywings word ingespan om die eerste taalkundig gemotiveerde Afrikaanse boombank te bou wat annotasies vanuit beide grammatikale raamwerke bevat. Met verskeie variasies van hierdie boombank voer ons dan k-voudige kruisvalidering uit met vier toonaangewende sinsontleders en fynkam hul resultate. Aan die hand van hierdie resultate, sowel as die teoretiese insigte verkry tydens die formele beskrywings van geskrewe Afrikaans, lei ons af dat afhanklikheidsgrammatiek samestellingsgrammatiek oortref vir die rekenaarmatige voorstelling van die sintaktiese struktuur van geskrewe Afrikaanse sinne binne die getoetsde toestande.
Description
Thesis (PhD)--Stellenbosch University, 2019.
Keywords
Afrikaans language -- Sentences, Afrikaans language -- Grammar, Computational linguistics, Grammar, Comparative and general -- Sentences, Sentence parsing, UCTD