Enhanced prediction of model-based vocal features using a probabilistic bayesian neural network with uncertainty estimation

Abstract
This thesis presents a thorough investigation into the modeling and estimation of vocal function variables, providing advances in the field of non-invasive ambulatory voice monitoring. Two related studies are involved in the thesis. One of the studies is aimed to resolve the discrepancies between the Triangular Body-Cover Model (TBCM) of vocal folds and clinical data. The study explores theimpact of physical properties, particularly the attenuation factor of the vocal tract, in accurately replicating clinical data, offering insights into the optimization of synthetic voice models for more accurate clinical representation. The second study introduces a novel application of a Probabilistic Bayesian Neural Network (PBNN) for estimating vocal function variables such as subglottal pressure,vocal fold contact pressure, and muscle activation variables, which are challenging to measure in ambulatory settings. The PBNN is trained on both synthetic and clinical data, demonstrating strong performance in predicting these variables with accurate es timations and narrow confidence intervals in synthetic contexts. In contrast, clinical contexts, incorporating transfer learning, present wider, more realistic confidence in tervals due to the inherent variability in human phonation. Furthermore, an observable correlation between prediction errors and both aleatoric and epistemic uncertaintieshighlights the ability of the network to forecast inaccuracies. Increased uncertainty at points of non-linear behavior, especially at higher subglottal pressures, suggests the need for improved input features to capture these nonlinear effects, indicating avenues for future research to enhance measurement fidelity.
Esta tesis presenta una investigación exhaustiva sobre el modelamiento y estimación de variables de función vocal, presentando avances en el campo del monitoreo de voz ambulatorio no invasivo. La tesis contempla dos estudios relacionados. El primer estudio consiste en resolver discrepancias entre el Modelo de Cuerpo cubierta Triangular (TBCM) de las cuerdas vocales y los datos clínicos. El estudio explora el impacto de las propiedades físicas, particularmente el factor de atenuación del tracto vocal, en replicar con precisión los datos clínicos, avanzando hacia la optimización de modelos de voz sintéticos para una mejor representación clínica. El segundo estudio introduce una aplicación novedosa de una Red Neuronal Bayesiana Probabilística (PBNN) para la estimación de variables de función vocal como la presión subglótica, la presión de contacto de las cuerdas vocales y variables de activación muscular, que son difíciles de medir en entornos ambulatorios. La PBNN se entrena condatos sintéticos y clínicos, demostrando un buen rendimiento en la estimación de estas variables con estimaciones precisas e intervalos de confianza estrechos en contextos sintéticos. En contraste, los contextos clínicos, incorporando transfer learning, presentan intervalos de confianza mas amplios debido a la variabilidad inherente en la fonación humana. Esta adaptabilidad de la red a los datos del mundo real enfatiza su potencial en el diagnóstico de patologías de la voz y el monitoreo ambulatorio, destacando la diferencia entre la naturaleza determinista de los modelos sintéticos y la naturaleza estocástica de los datos clínicos.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024
Keywords
Vocal folds, Lumped element models, Vocal tract, Probabilistic Bayesian Neural Network, Transfer Learning, Pliegues vocales, Modelos de elementos aglomerados, Tracto vocal, Red Neuronal Bayesiana Probabilística
Citation