METODO Y SISTEMA PARA LA ESTIMACION DE PARAMETROS FISIOLOGICOS DE LA FONACION
Los experimentos realizados por la Universidad Politécnica de Madrid, han permitido encontrar un nuevo Método y sistema para la estimación de parámetros fisiológicos de la fonación.
La invención se enmarca en el sector de las tecnologías de la información y las comunicaciones con aplicación en biomedicina y la seguridad, y más concretamente en el campo de la detección y la gradación de la patología orgánica de la voz por medio de la clasificación de parámetros obtenidos de la onda glótica de la voz, y en la gestión de acceso seguro por voz.
Los procesos de estimación paramétrica se suelen llevar a cabo sobre la voz medida en el punto de captura de la misma, generalmente un micrófono de propósito general, para ser digitalizada y posteriormente procesada.
La medida de la calidad de voz, como procedimiento para el diagnóstico y gradación de la patología orgánica de la voz, ha conocido un auge importante en la última década. Fruto del mismo son un conjunto de aplicaciones informáticas que a partir de la voz generan índices de medida de la calidad de la misma como variantes del jitter (perturbación del período de fonación a lo largo del tiempo), del shimmer (perturbación temporal de la amplitud de la fonación ciclo a ciclo), de la relación señal/ruido (entre la parte periódica y la no periódica de un segmento de voz), del índice glottal/noise (proporción entre la energía de la onda glótica respecto al ruido residual presente en la voz), y de parámetros temporales que reflejan los procesos de apertura y cierre de los pliegues vocales durante una fonación, como son los ciclos de recuperación, cierre, apertura y cerramiento.
Las limitaciones identificadas actualmente, en este ámbito son las siguientes:
- La influencia del tracto vocal en la fonación es fuertemente enmascaradora de la actividad dinámica de los pliegues vocales, y dificulta enormemente la estimación del estado fisiológico de la misma a partir del registro de la voz.
-Las estimaciones del estado fisiológico de los pliegues vocales a partir del análisis acústico de la voz se centran en el uso de parámetros de distorsión que no tienen una semántica bien definida y unívoca respecto al problema que modelan.
- La personalización del locutor a partir del habla incorpora mucha información articulatoria, dependiente del texto, que genera una alta variabilidad intra-locutor dificultando las tareas de la identificación robusta.
La patente de la Universidad Politécnica de Madrid, resuelve los problemas y las limitaciones anteriores, mediante las siguientes actuaciones:
1. Se utilizan parámetros derivados de la onda glótica para determinar la actividad dinámica de los pliegues vocales, mediante la reconstrucción de dicha señal por filtrado inverso de la señal de voz. Los nuevos parámetros son estimaciones de la envolvente del espectro en frecuencia de la onda glótica así reconstruida.
2. Se realizan estimaciones de los parámetros biomecánicos de los pliegues vocales mediante la adaptación de un modelo biomecánico resonante que reconstruya el comportamiento en frecuencia en una banda dada de la envolvente espectral de la onda glótica. Los parámetros biomecánicos son estimados mediante los valores del modelo biomecánico citado mediante inversión del sistema dinámico de los mismos. Estos nuevos parámetros determinan comportamientos normales y anormales de los pliegues vocales en fonación de forma mucho más directa.
3. Se elimina la influencia del tracto vocal en la fonación mediante filtrado inverso, lo que reduce la variabilidad intra-locutor producida por la articulatoria. Ello mejora las tasas de discriminación inter-locutor al separar mejor las clases de locutores modelados.
Para ello se propone un sistema de captura de la señal de voz y un conjunto de métodos algorítmicos diseñados para la extracción de parámetros relevantes a partir de la onda glótica, y para su clasificación de acuerdo con una población de control normal, que permiten la determinación de la presencia de disfonía, del grado de la misma, y de la identidad del locutor.
FUENTE | OEPM