How to automatically detect calls from cetaceans and fish without large-scale training data
Date
2024-03
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Stellenbosch : Stellenbosch University
Abstract
ENGLISH ABSTRACT: Passive acoustic monitoring has become pivotal in the acquisition of vocalisations produced by marine wildlife, however, there is a need for suitable detection methods that can segment these vocalisations from the many hours of noise present in the retrieved audio recordings. Automatic detection methods can aid in this, labelling potential animal calls in bioacoustic recordings faster than manual annotation. One problem modern automatic detection methods suffer from, particularly deep learning methods, is overfitting due to small training sets. This calls for detection methods that can quickly and accurately detect bioacoustic vocalisations without the need for copious amounts of training data. Such detection methods are proposed here for the automatic detection of cetacean and fish vocalisations in underwater recordings. The first method is a silence detector based on a temporal power calculation that can be used as a pre-processing step to quickly find potential target calls. The harmonic structure of vocalisations is then exploited to aid in their detection. The second method is based on the summation of sound harmonics, with a normalisation scheme that provides robust performance in the presence of wide-band noise. The third method extends this normalisation scheme to spectrogram masking, a faster alternative to spectrogram cross-correlation. After this the use of unsupervised deep learning methods are investigated, in an attempt to determine their ability to detect cetacean vocalisations in the presence of imbalanced data.
AFRIKAANSE OPSOMMING: Passiewe akoestiese monitering het deurslaggewend geword in die verkryging van vokaliserings wat deur mariene natuurlewe geproduseer word, maar daar is ’n behoefte aan geskikte opsporingsmetodes wat hierdie vokalisering kan segmenteer uit die baie ure se geraas wat in die oudio-opnames teenwoordig is. Outomatiese opsporingsmetodes kan hiermee help en die potensi¨ele dieroproepe in bioakoestiese opnames vinniger as visuele inspeksie vind. Een probleem waaraan moderne outomatiese opsporingmetodes ly, veral diepleermetodes, is ooraanpassing as gevolg van klein opleidingsstelle. Dit vereis opsporingsmetodes wat bioakoestiese vokaliserings vinnig en akkuraat kan opspoor sonder die behoefte aan groot hoeveelhede opleidingsdata. Sulke opsporingsmetodes word hier voorgestel vir die outomatiese opsporing van walvis- en visvokaliserings in onderwateropnames. Die eerste metode is ’n stiltedetektor gebaseer op ’n temporale kragberekening wat as ’n voorverwerkingstap gebruik kan word om vinnig potensi¨ele teikenoproepe te vind. Die harmoniese struktuur van vokalisering word dan gebruik om te help met die opsporing daarvan. Die tweede metode is gebaseer op die som van klankharmonie¨e, met ’n normaliseringskema wat robuuste verrigting bied in die teenwoordigheid van wyebandgeraas. Die derde metode brei hierdie normaliseringskema uit na spektrogrammaskering, ’n vinniger alternatief vir spektrogramkruiskorrelasie. Hierna word die gebruik van groepering diepleermetodes ondersoek, in ’n poging om hul vermo¨e te bepaal om walvis vokaliserings op te spoor in die teenwoordigheid van ongebalanseerde data.
AFRIKAANSE OPSOMMING: Passiewe akoestiese monitering het deurslaggewend geword in die verkryging van vokaliserings wat deur mariene natuurlewe geproduseer word, maar daar is ’n behoefte aan geskikte opsporingsmetodes wat hierdie vokalisering kan segmenteer uit die baie ure se geraas wat in die oudio-opnames teenwoordig is. Outomatiese opsporingsmetodes kan hiermee help en die potensi¨ele dieroproepe in bioakoestiese opnames vinniger as visuele inspeksie vind. Een probleem waaraan moderne outomatiese opsporingmetodes ly, veral diepleermetodes, is ooraanpassing as gevolg van klein opleidingsstelle. Dit vereis opsporingsmetodes wat bioakoestiese vokaliserings vinnig en akkuraat kan opspoor sonder die behoefte aan groot hoeveelhede opleidingsdata. Sulke opsporingsmetodes word hier voorgestel vir die outomatiese opsporing van walvis- en visvokaliserings in onderwateropnames. Die eerste metode is ’n stiltedetektor gebaseer op ’n temporale kragberekening wat as ’n voorverwerkingstap gebruik kan word om vinnig potensi¨ele teikenoproepe te vind. Die harmoniese struktuur van vokalisering word dan gebruik om te help met die opsporing daarvan. Die tweede metode is gebaseer op die som van klankharmonie¨e, met ’n normaliseringskema wat robuuste verrigting bied in die teenwoordigheid van wyebandgeraas. Die derde metode brei hierdie normaliseringskema uit na spektrogrammaskering, ’n vinniger alternatief vir spektrogramkruiskorrelasie. Hierna word die gebruik van groepering diepleermetodes ondersoek, in ’n poging om hul vermo¨e te bepaal om walvis vokaliserings op te spoor in die teenwoordigheid van ongebalanseerde data.
Description
Thesis (PhD)--Stellenbosch University, 2024.