Enhanced prediction of model-based vocal features using a probabilistic bayesian neural network with uncertainty estimation

dc.catalogadoryvc
dc.contributor.advisorDe La Cuadra Banderas Patricio
dc.contributor.advisorZañartu, Matías
dc.contributor.advisorMery Quiroz Domingo Arturo
dc.contributor.advisorEspinoza, Víctor
dc.contributor.advisorCienfuegos Carrasco, Rodrigo Alberto
dc.contributor.authorSepúlveda Riquelme, Joaquín
dc.date.accessioned2024-07-01T17:15:41Z
dc.date.available2024-07-01T17:15:41Z
dc.date.issued2024
dc.date.updated2024-07-01T16:25:21Z
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024
dc.description.abstractThis thesis presents a thorough investigation into the modeling and estimation of vocal function variables, providing advances in the field of non-invasive ambulatory voice monitoring. Two related studies are involved in the thesis. One of the studies is aimed to resolve the discrepancies between the Triangular Body-Cover Model (TBCM) of vocal folds and clinical data. The study explores theimpact of physical properties, particularly the attenuation factor of the vocal tract, in accurately replicating clinical data, offering insights into the optimization of synthetic voice models for more accurate clinical representation. The second study introduces a novel application of a Probabilistic Bayesian Neural Network (PBNN) for estimating vocal function variables such as subglottal pressure,vocal fold contact pressure, and muscle activation variables, which are challenging to measure in ambulatory settings. The PBNN is trained on both synthetic and clinical data, demonstrating strong performance in predicting these variables with accurate es timations and narrow confidence intervals in synthetic contexts. In contrast, clinical contexts, incorporating transfer learning, present wider, more realistic confidence in tervals due to the inherent variability in human phonation. Furthermore, an observable correlation between prediction errors and both aleatoric and epistemic uncertaintieshighlights the ability of the network to forecast inaccuracies. Increased uncertainty at points of non-linear behavior, especially at higher subglottal pressures, suggests the need for improved input features to capture these nonlinear effects, indicating avenues for future research to enhance measurement fidelity.
dc.description.abstractEsta tesis presenta una investigación exhaustiva sobre el modelamiento y estimación de variables de función vocal, presentando avances en el campo del monitoreo de voz ambulatorio no invasivo. La tesis contempla dos estudios relacionados. El primer estudio consiste en resolver discrepancias entre el Modelo de Cuerpo cubierta Triangular (TBCM) de las cuerdas vocales y los datos clínicos. El estudio explora el impacto de las propiedades físicas, particularmente el factor de atenuación del tracto vocal, en replicar con precisión los datos clínicos, avanzando hacia la optimización de modelos de voz sintéticos para una mejor representación clínica. El segundo estudio introduce una aplicación novedosa de una Red Neuronal Bayesiana Probabilística (PBNN) para la estimación de variables de función vocal como la presión subglótica, la presión de contacto de las cuerdas vocales y variables de activación muscular, que son difíciles de medir en entornos ambulatorios. La PBNN se entrena condatos sintéticos y clínicos, demostrando un buen rendimiento en la estimación de estas variables con estimaciones precisas e intervalos de confianza estrechos en contextos sintéticos. En contraste, los contextos clínicos, incorporando transfer learning, presentan intervalos de confianza mas amplios debido a la variabilidad inherente en la fonación humana. Esta adaptabilidad de la red a los datos del mundo real enfatiza su potencial en el diagnóstico de patologías de la voz y el monitoreo ambulatorio, destacando la diferencia entre la naturaleza determinista de los modelos sintéticos y la naturaleza estocástica de los datos clínicos.
dc.fechaingreso.objetodigital2024-07-01
dc.format.extentxv; 86 páginas
dc.fuente.origenSRIA
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/86919
dc.information.autorucEscuela de Ingeniería; Sepúlveda Riquelme, Joaquín;S/I; 1025825
dc.information.autorucEscuela de Ingeniería; De La Cuadra Banderas Patricio; 0000-0001-5770-8649; 87138
dc.information.autorucEscuela de Ingeniería; Mery Quiroz Domingo Arturo; 0000-0003-4748-3882; 102382
dc.information.autorucEscuela de Ingeniería; Cienfuegos Carrasco Rodrigo Alberto; 0000-0001-5768-2477; 8598
dc.language.isoen
dc.nota.accesocontenido completo
dc.rightsacceso abierto
dc.rights.licenseAtribución 4.0 Internacional (CC BY 4.0)
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/deed.es
dc.subjectVocal folds
dc.subjectLumped element models
dc.subjectVocal tract
dc.subjectProbabilistic Bayesian Neural Network
dc.subjectTransfer Learning
dc.subjectPliegues vocales
dc.subjectModelos de elementos aglomerados
dc.subjectTracto vocal
dc.subjectRed Neuronal Bayesiana Probabilística
dc.subject.ddc620
dc.subject.deweyIngenieríaes_ES
dc.subject.ods03 Good Health and Wellbeing
dc.subject.odspa03 Salud y Bienestar
dc.titleEnhanced prediction of model-based vocal features using a probabilistic bayesian neural network with uncertainty estimation
dc.typetesis de maestría
sipa.codpersvinculados1025825
sipa.codpersvinculados87138
sipa.codpersvinculados102382
sipa.codpersvinculados8598
Files
Original bundle
Now showing 1 - 2 of 2
Loading...
Thumbnail Image
Name:
TESIS_JSepúlveda_Firma Final.pdf
Size:
11.35 MB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
Declaración de Resultados de Investigación.txt
Size:
2.54 KB
Format:
Plain Text
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: