Application of long short-term memory artificial neural networks to forecast water supply and demand in the Lake Chad Basin
Date
2020-12
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: The implementation of effective water resources management in developing countries in general and in the Lake Chad Basin in particular, is hindered by the absence of reliable information on both the net water
supply, as well as on the agricultural water demand. The main purpose of this research is to provide a
methodology to determine and forecast total water supply and water demand in the context of scarce data
for water resources management.
In order to develop a forecasting methodology, a literature survey is first performed to understand the
current environment and methodology of water resources management in the Lake Chad Basin, to
highlight the main problems faced within the context, and to identify the opportunity for applied research.
As part of this investigation, different stakeholders were visited during a field trip to the Lake Chad
Basin. The main water users identified in the Lake Chad Basin do not have historical data on agricultural
water demands, making it difficult to understand current water demand requirements or estimate future
demand in the Lake Chad Basin. Literature available on the Lake Chad Basin were also considered. A
hydrological model was developed in 2011 by Bader, Lemoalle, and Leblanc and reported on in the paper
Modèle hydrologique du Lac Tchad [16]. The model provides information on the lake storage for the
period 1956 to 2011, however, it does not consider upstream diversion. Therefore, the output of the model
does not allow an exhaustive estimation of water supply in the Lake Chad Basin. In addition, the model
is data intensive and uses variables that are neither easy to obtain, nor straightforward to compute, and
requires expert hydrological knowledge to extend the use of the model for future water supply estimation
beyond 2011. Moreover, there are currently no model developed for estimating water demand in the Lake
Chad Basin.
Long short-term memory is an artificial recurrent neural network that have been shown to perform
exceptionally well in the context of time series forecasting, due to its ability to incorporate lags of
unknown duration in the network structure. Despite the good track record of this methodology in
forecasting time series, it is not widely used in the literature for water supply and demand estimation. In
this dissertation, multivariate time series forecasting with long short-term memory is investigated as an
alternative methodology for different aspects of water supply and demand estimation. Pearson correlation,
random forest, extra trees classifiers and principal component analysis are investigated as input selection
approaches to increase prediction accuracy. For water supply estimation, a lake storage forecasting model as well as a streamflow forecasting model
are developed. Results indicate that long short-term memory can be used to predict Lake Chad Basin
storage, with better performances than the state of the art results, obtained from artificial neural networks
and support vector regression. The multivariate approach indicates that atmospheric data are both good
and easily obtainable data for lake storage forecasting. The input variables, selected with both the
principal component analysis and random forest approach are recommended for streamflow forecasting
in the Lake Chad Basin. Random forest occupies the second position, by producing better predictions in
the Ndjamena gauging station.
A long-term temperature forecasting model as well as a precipitation forecasting model were developed
and the outputs were used as input in the CROPWAT software to determine the irrigation water requirement per hectare per crop type. A comparison between the widely used statistical downscaling model and
the forecasting models for long-term temperatures and precipitations developed in this research indicate
better accuracy using the multivariate long short-term memory approach. Both the root mean square
error and the mean absolute percentage error used to check the performances of the models indicate
commendable accuracy.
Four population dynamics models, namely the malthusian growth model; the logistic growth models
with both constant and dynamic rates, as well a logistic growth model with dynamic rate and species
interaction, are developed to estimate the size of land used for both crop and livestock, and to finally
predict the total agricultural water demand in the Lake Chad Basin. The models are parameterised
using long short-term memory. A case by case investigation of prediction performances across the three
countries indicates that the malthusian growth approach produces better performances in 9 cases, the
logistic growth model with constant rate performs better in 4 cases, and the logistic growth model with
dynamic rate performs better in 7 cases. The malthusian approach is more suitable for variables with
unstable trends, the logistic model with constant rate is more suitable for variables with almost concave
or convex shapes and the logistic growth with dynamic rate is the most useful long-term crop land-use
and livestock population forecasting. Finally, the best performing models for crop land-use and livestock
population are downscaled to main water users level, in order to estimate total water demand per crop
type and per livestock type. The investigation of the four population dynamics models, on both the crop
land-use and livestock population dynamics, the characterisation of the competition type between species
in the Lake Chad Basin case study as well as the estimation of water demand at water users’ level is a
new contribution to literature.
AFRIKAANSE OPSOMMING: Die implementering van effektiewe bestuur van waterhulpbronne in ontwikkelende lande in die algemeen en in die Tsjad-meer-bekken in die besonder, word belemmer deur die afwesigheid van betroubare inligting oor sowel die netto watervoorsiening as oor die vraag na landbouwater. Die hoofdoel van hierdie navorsing is om ’n metodologie te verskaf om die totale watervoorsiening en die vraag na water te bepaal en te voorspel in die konteks van skaars data rakende die bestuur van waterbronne. Ten einde ’n voorspellingsmetodologie te ontwikkel, word ’n literatuurstudie eerstens uitgevoer om die huidige omgewing en metodologie van waterhulpbronbestuur in die Tsjad-meer-bekken te verstaan, om die belangrikste probleme binne die konteks uit te lig en die geleentheid vir toegepaste navorsing te identifiseer. As deel van hierdie ondersoek is verskillende belanghebbendes tydens ’n velduitstappie na die Tsjad-meer besoek. Die belangrikste watergebruikers wat in die Tsjad-meer geïdentifiseer is, het nie historiese gegewens oor landbouwaterbehoeftes nie, wat dit moeilik maak om die huidige vereistes vir wateraanvraag te begryp of die toekomstige vraag na water in die Tsjad-meer te skat. Beskikbare literatuur aangaande die Tsjad-meer is ook in ag geneem. Die bestaande hidrologiese model wat in 2011 deur Bader ontwikkel is, bied inligting oor die watervlak van die meer vir die periode 1956 tot 2007, maar dit sluit nie stroomafleiding in nie. Die resultate van die model sluit dus nie ’n volledige beraming van die netto watervoorsiening in die Tsjad-meer in nie. Die model is boonop data-intensief en gebruik veranderlikes wat nie maklik bekombaar is nie, of nie eenvoudig is om te bereken nie, en vereis kundige hidrologiese kennis om toekomstige beraming van watervoorsiening na 2007 te maak. Daar is tans geen model ontwikkel om die vraag na water in die Tsjad-meer te skat nie. Lang-korttermyngeheue is ’n kunsmatige herhalende neurale netwerk wat bewys is dat dit buitengewoon goed presteer in die konteks van tydreeksvoorspelling, weens die vermoë om vertragings van onbekende sloere in die netwerkstruktuur in ag te neem. Ondanks die goeie rekord van hierdie metodologie in die voorspelling van tydreekse, word dit nie wyd gebruik in die literatuur vir die bepaling van watervoorsiening en -vraag nie. In hierdie proefskrif word meerveranderlike tydreeksvoorspelling met ’n lang-korttermyngeheue ondersoek as ’n alternatiewe metodologie vir verskillende aspekte van watervoorsiening en vraagberaming. Pearson-korrelasie, ewekansige woud, ekstra bome-klassifiseerders en hoofkomponentanalise word ondersoek as invoerkeuse-benaderings om die voorspellings-akkuraatheid te verhoog. Vir die bepaling van watervoorsiening word ’n voorspellingsmodel vir die watervlak in die meer sowel as ’n stroomvloeivoorspellingsmodel ontwikkel. Resultate dui daarop dat lang-korttermyngeheue gebruik kan word om die watervlak van die Tsjad-meer te voorspel, met beter prestasies as resultate verkry deur ander toonaangewende kunsmatige neurale netwerke en ondersteuningsvektorregressie. Die meerveranderlike benadering dui daarop dat atmosferiese data beide goeie en maklik verkrygbare data is vir die voorspelling van watervlakke. Die invoerveranderlikes, wat gekies is met die hoofkomponentanalise en die ewekansige bosbenadering, word aanbeveel vir stroomvloeivoorspelling in die Tsjad-meer. Ewekansige bos beklee die tweede posisie deur beter voorspellings in die Ndjamena-meetstasie te lewer. ’n Langtermyn-temperatuur vooruitskattingsmodel sowel as ’n re´’en vooruitskattingsmodel is ontwikkel waarvan die voorspellings van die modelle gebruik is as toevoer in die bekende FAO-CROPWAT8.0 model om besproeiingswaterbehoefte per hektaar per gewas te bepaal. ’nVergelyking tussen die algemeen gebruikte statistiese afskalingsmodel en die voorspellingsmodelle vir langtermyntemperature en re´’enval wat in hierdie navorsing ontwikkel is, dui op ’n beter akkuraatheid met behulp van die meerveranderlike lang-korttermyn geheue benadering. Beide die wortel gemiddelde vierkantige benaderingsfout en die gemiddelde absolute persentasiefout wat gebruik word om die prestasies van die modelle te kontroleer, dui op prysenswaardige akkuraatheid. Vier bevolkingsdinamika modelle, naamlik die malthusiaanse groeimodel; die logistieke groeimodelle met ’n konstante en dinamiese tempo, sowel as ’n logistieke groeimodel met dinamiese tempo en spesieinteraksie, word ontwikkel om die grootte van die land wat vir beide gewasse en vee gebruik word, te skat en om dan die totale vraag na landbouwater in die Tsjad-meer te skat. Die modelle word met behulp van die lang-korttermyngeheue geparametriseer. Gevallestudies in die drie lande dui aan dat die malthusiese groeibenadering beter prestasies lewer in 9 gevalle, die logistieke groeimodel met ’n konstante koers beter presteer in 4 gevalle, en die logistieke groeimodel met dinamiese koers beter presteer in 7 gevalle. Die malthusiese benadering is meer geskik vir veranderlikes met onstabiele neigings, die logistieke model met ’n konstante tempo is meer geskik vir veranderlikes met amper konkawe of konvekse vorms, en die logistieke groei met ’n dinamiese tempo is die mees bruikbare langtermyn gewas-grondgebruik en veebevolking vooruitskatting. Laastens word die bes presterende modelle vir gewas-grondgebruik en veebevolking afgeskaal na die vlak van die belangrikste watergebruikers om die totale watervraag per gewas- en vee-tipe te skat. Die ondersoek van die vier bevolkingsdinamikamodelle, toegepas op die gewas-grondgebruik en veebevolkingsdinamika, die karakterisering van die kompetisietipe tussen spesies in die Tsjad-meer-bekken-gevallestudie, sowel as die beraming van die vraag na water op water gebruikersvlak is nuwe bydrae tot die literatuur.
AFRIKAANSE OPSOMMING: Die implementering van effektiewe bestuur van waterhulpbronne in ontwikkelende lande in die algemeen en in die Tsjad-meer-bekken in die besonder, word belemmer deur die afwesigheid van betroubare inligting oor sowel die netto watervoorsiening as oor die vraag na landbouwater. Die hoofdoel van hierdie navorsing is om ’n metodologie te verskaf om die totale watervoorsiening en die vraag na water te bepaal en te voorspel in die konteks van skaars data rakende die bestuur van waterbronne. Ten einde ’n voorspellingsmetodologie te ontwikkel, word ’n literatuurstudie eerstens uitgevoer om die huidige omgewing en metodologie van waterhulpbronbestuur in die Tsjad-meer-bekken te verstaan, om die belangrikste probleme binne die konteks uit te lig en die geleentheid vir toegepaste navorsing te identifiseer. As deel van hierdie ondersoek is verskillende belanghebbendes tydens ’n velduitstappie na die Tsjad-meer besoek. Die belangrikste watergebruikers wat in die Tsjad-meer geïdentifiseer is, het nie historiese gegewens oor landbouwaterbehoeftes nie, wat dit moeilik maak om die huidige vereistes vir wateraanvraag te begryp of die toekomstige vraag na water in die Tsjad-meer te skat. Beskikbare literatuur aangaande die Tsjad-meer is ook in ag geneem. Die bestaande hidrologiese model wat in 2011 deur Bader ontwikkel is, bied inligting oor die watervlak van die meer vir die periode 1956 tot 2007, maar dit sluit nie stroomafleiding in nie. Die resultate van die model sluit dus nie ’n volledige beraming van die netto watervoorsiening in die Tsjad-meer in nie. Die model is boonop data-intensief en gebruik veranderlikes wat nie maklik bekombaar is nie, of nie eenvoudig is om te bereken nie, en vereis kundige hidrologiese kennis om toekomstige beraming van watervoorsiening na 2007 te maak. Daar is tans geen model ontwikkel om die vraag na water in die Tsjad-meer te skat nie. Lang-korttermyngeheue is ’n kunsmatige herhalende neurale netwerk wat bewys is dat dit buitengewoon goed presteer in die konteks van tydreeksvoorspelling, weens die vermoë om vertragings van onbekende sloere in die netwerkstruktuur in ag te neem. Ondanks die goeie rekord van hierdie metodologie in die voorspelling van tydreekse, word dit nie wyd gebruik in die literatuur vir die bepaling van watervoorsiening en -vraag nie. In hierdie proefskrif word meerveranderlike tydreeksvoorspelling met ’n lang-korttermyngeheue ondersoek as ’n alternatiewe metodologie vir verskillende aspekte van watervoorsiening en vraagberaming. Pearson-korrelasie, ewekansige woud, ekstra bome-klassifiseerders en hoofkomponentanalise word ondersoek as invoerkeuse-benaderings om die voorspellings-akkuraatheid te verhoog. Vir die bepaling van watervoorsiening word ’n voorspellingsmodel vir die watervlak in die meer sowel as ’n stroomvloeivoorspellingsmodel ontwikkel. Resultate dui daarop dat lang-korttermyngeheue gebruik kan word om die watervlak van die Tsjad-meer te voorspel, met beter prestasies as resultate verkry deur ander toonaangewende kunsmatige neurale netwerke en ondersteuningsvektorregressie. Die meerveranderlike benadering dui daarop dat atmosferiese data beide goeie en maklik verkrygbare data is vir die voorspelling van watervlakke. Die invoerveranderlikes, wat gekies is met die hoofkomponentanalise en die ewekansige bosbenadering, word aanbeveel vir stroomvloeivoorspelling in die Tsjad-meer. Ewekansige bos beklee die tweede posisie deur beter voorspellings in die Ndjamena-meetstasie te lewer. ’n Langtermyn-temperatuur vooruitskattingsmodel sowel as ’n re´’en vooruitskattingsmodel is ontwikkel waarvan die voorspellings van die modelle gebruik is as toevoer in die bekende FAO-CROPWAT8.0 model om besproeiingswaterbehoefte per hektaar per gewas te bepaal. ’nVergelyking tussen die algemeen gebruikte statistiese afskalingsmodel en die voorspellingsmodelle vir langtermyntemperature en re´’enval wat in hierdie navorsing ontwikkel is, dui op ’n beter akkuraatheid met behulp van die meerveranderlike lang-korttermyn geheue benadering. Beide die wortel gemiddelde vierkantige benaderingsfout en die gemiddelde absolute persentasiefout wat gebruik word om die prestasies van die modelle te kontroleer, dui op prysenswaardige akkuraatheid. Vier bevolkingsdinamika modelle, naamlik die malthusiaanse groeimodel; die logistieke groeimodelle met ’n konstante en dinamiese tempo, sowel as ’n logistieke groeimodel met dinamiese tempo en spesieinteraksie, word ontwikkel om die grootte van die land wat vir beide gewasse en vee gebruik word, te skat en om dan die totale vraag na landbouwater in die Tsjad-meer te skat. Die modelle word met behulp van die lang-korttermyngeheue geparametriseer. Gevallestudies in die drie lande dui aan dat die malthusiese groeibenadering beter prestasies lewer in 9 gevalle, die logistieke groeimodel met ’n konstante koers beter presteer in 4 gevalle, en die logistieke groeimodel met dinamiese koers beter presteer in 7 gevalle. Die malthusiese benadering is meer geskik vir veranderlikes met onstabiele neigings, die logistieke model met ’n konstante tempo is meer geskik vir veranderlikes met amper konkawe of konvekse vorms, en die logistieke groei met ’n dinamiese tempo is die mees bruikbare langtermyn gewas-grondgebruik en veebevolking vooruitskatting. Laastens word die bes presterende modelle vir gewas-grondgebruik en veebevolking afgeskaal na die vlak van die belangrikste watergebruikers om die totale watervraag per gewas- en vee-tipe te skat. Die ondersoek van die vier bevolkingsdinamikamodelle, toegepas op die gewas-grondgebruik en veebevolkingsdinamika, die karakterisering van die kompetisietipe tussen spesies in die Tsjad-meer-bekken-gevallestudie, sowel as die beraming van die vraag na water op water gebruikersvlak is nuwe bydrae tot die literatuur.
Description
Thesis (PhD)--Stellenbosch University, 2020.
Keywords
Neural networks (Computer science), Water supply and demand -- Forecasting -- Chad, Lake -- Africa, West, Machine learning, UCTD