Las personas con problemas de audición suelen tener dificultades para comunicarse en entornos sin un intérprete. Últimamente se han desarrollado diferentes enfoques para tratar de resolver este problema. Un grupo de investigadores de la Facultad de Informática de la UPV/EHU ha desarrollado un sistema de reconocimiento de la lengua de signos argentina que utiliza puntos de referencia de la mano extraídos de vídeos con el fin de distinguir entre diferentes signos sin necesidad de que el signante use equipos especiales.
“Según los datos de la Organización Mundial de la Salud-expome Basilio Sierra, catedrático del Departamento de Ciencias de la Computación e Inteligencia Artificial de la UPV/EHU-, más del 5% de la población mundial tiene problemas de audición. Esto supone unos 466 millones de personas (432 millones de adultos y 34 millones de niños), y se prevé que esta cantidad aumente. Para 2050 se espera que alrededor de 700 millones de personas (una de cada diez personas) sufran deficiencias auditivas. Entre estas personas, más o menos 70 millones utilizan una de las más de 300 lenguas de signos que existen como primera lengua. Sin embargo, como el conocimiento de las lenguas de signos no está extendido por todo el mundo, estas personas suelen tener dificultades para comunicarse en diferentes escenarios, y su interacción en la vida diaria se complica cuando no hay un intérprete que les ayude con la traducción. Para tratar de resolver estos problemas, últimamente se han desarrollado muchos enfoques diferentes en el campo del reconocimiento automático del lenguaje de signos. Algunos de estos enfoques son un poco intrusivos, ya que requieren que el signante (persona que usa el lenguaje de signos) utilice algún tipo de dispositivo para que el sistema sea capaz de interpretar lo que está diciendo.”
“Las lenguas de signos-apunta Itsaso Rodríguez, estudiante de doctorado-, como lenguas orales, tienen sus propias estructuras lingüísticas y son bastante difíciles de traducir a lenguas habladas debido a diferentes aspectos. Cada lengua de signos está compuesta por miles de signos diferentes que muchas veces difieren por pequeños cambios. Por ejemplo, algunos signos tienen la misma configuración de manos, pero diferente orientación. Además, a veces el significado de un signo puede cambiar según el contexto o la frase en la que se utilice. La expresión facial también es crucial para diferenciar algunos de los signos, lo que es muy importante, por ejemplo, a la hora de hacer frases interrogativas. Por lo tanto, algunos signos difieren solo en pequeños detalles, como la configuración de la mano, el movimiento, la posición, la expresión facial o incluso el contexto.”
Sin embargo, varios signos se parecen mucho a los gestos que realizaría un oyente no experto para describir una acción. Y, en la mayoría de los casos, la relación signo-objeto es arbitraria y no tienen ninguna referencia visual. “Otras características de las lenguas de signos son, por ejemplo, que el orden de las palabras puede ser diferente según el contexto o que algunos verbos no se signan. También hay que tener en cuenta la ortografía dactilar, en la que las palabras se deletrean si no se conoce el signo de esa palabra. El deletreo con los dedos se utiliza sobre todo para los nombres propios. Hay muchas otras características que hacen que el reconocimiento del lenguaje de signos sea una tarea compleja, aunque no mencionamos todas en el estudio”, explica Sierra.
En este trabajo se presenta un enfoque para el reconocimiento de la lengua de signos basado en vídeo. “Como primer paso del proceso, se componen unas señales con las posiciones extraídas por MediaPipe (solución de detección facial ultrarápida), que representan un conjunto de articulaciones de la mano que está realizando el signo. A continuación, estas señales se transforman utilizando el algoritmo Common Spatial Patterns, un algoritmo de reducción de la dimensionalidad ampliamente utilizado en las señales de electroencefalograma. Common Spatial Patterns también se ha aplicado en el campo de la electrocardiografía, la electromiografía o incluso en imágenes astronómicas para la detección de planetas, y recientemente se ha utilizado en tareas de reconocimiento de acciones en vídeo obteniendo resultados alentadores. Este enfoque permite un cálculo de forma cerrada y por lo tanto no es necesario decidir los criterios de terminación como ocurre en métodos iterativos ampliamente aplicados, por ejemplo, el descenso de gradiente en el aprendizaje profundo.”
Los investigadores han utilizado vídeos de un conjunto de datos de la lengua de signos argentina. “Para cada fotograma de vídeo se obtienen varios puntos de referencia de la mano mediante la mencionada tecnología MediaPipe. Estos puntos de referencia de la mano se utilizan para crear un conjunto de señales para cada vídeo. El algoritmo Common Spatial Patterns se utiliza para transformar estas señales y después de extraer algunas características de las mismas (valores de varianza, máximo, mínimo y rango intercuartílico) se realiza la clasificación. Para la clasificación se han utilizado diferentes clasificadores. Hay que mencionar que el enfoque presentado no es intrusivo, no es necesario colocar ningún tipo de dispositivo a los signantes, lo que hace que el sistema sea más cómodo para ellos. Los resultados obtenidos tienen entre 0,90 y 0,95 de precisión, alcanzando valores más altos tras convertir los vídeos originales al espacio de color blanco y negro. Son resultados de clasificación muy prometedores”, concluye Itsaso Rodríguez.
Referencia:
Rodríguez-Moreno I, Martínez-Otzeta JM, Goienetxea I, Sierra B (2022) Sign language recognition by means of common spatial patterns: An analysis. PLoS ONE doi: 10.1371/journal.pone.0276941
Edición realizada por César Tomé López a partir de materiales suministrados por UPV/EHU Komunikazioa
Reconocimiento automático de la lengua de signos @CCCientifica – Protocol Bloggers Point
[…] Enlace al post original […]