
Investigadores de Apple Machine Learning han desvelado un avance sustancial en la interpretación del lenguaje de señas asistida por inteligencia artificial, presentando un novedoso método de 'pseudo — anotación'. Publicado en la prestigiosa conferencia CVPR en abril de 2026, este estudio se enfoca en las áreas de Accesibilidad y Visión por Computadora, buscando mitigar la persistente escasez de datos anotados de alta calidad. Esta limitación ha sido históricamente un obstáculo crucial para el desarrollo de sistemas de IA eficaces en este ámbito vital, impidiendo el avance de herramientas que podrían beneficiar enormemente a la comunidad Sorda y con problemas de audición (DHH) al facilitar la comunicación y la inclusión.
En el núcleo de esta innovación se encuentra una tubería de pseudo — anotación ingeniosamente diseñada que transforma videos de lenguaje de señas y texto en inglés en un conjunto clasificado de posibles anotaciones. Estas anotaciones incluyen glosas, palabras deletreadas con los dedos (fingerspelling) y clasificadores de señas, junto con sus respectivos intervalos de tiempo. La principal barrera en el desarrollo de la IA para el lenguaje de señas ha sido históricamente el costo prohibitivo y el tiempo requerido para la anotación manual de datos a una escala masiva.
La metodología detrás de esta tubería de pseudo — anotación se apoya en predicciones dispersas obtenidas de un reconocedor de deletreo con los dedos y un reconocedor de señas aisladas (ISR), complementadas con un enfoque de modelo de lenguaje grande (LLM) de K — Shot. Para respaldar esta tubería, los investigadores, incluidos Colin Lea, Vasileios Baltatzis, Connor Gillis, Raja Kushalnagar, Lorna Quandt y Leah Findlater, establecieron modelos de referencia para el deletreo con los dedos y el ISR que, a pesar de su simplicidad, han demostrado ser altamente efectivos. Estos modelos han alcanzado resultados de vanguardia en conjuntos de datos clave, logrando un 6.7% de Tasa de Error de Caracteres (CER) en FSBoard y una precisión del 74% en top-1 en los conjuntos de datos de ASL Citizen.
Existen grandes conjuntos de datos de lenguaje de señas, como ASL STEM Wiki y FLEURS — ASL, que contienen cientos de horas de grabaciones con intérpretes profesionales. Sin embargo, estos recursos permanecen subutilizados en parte debido a que solo están parcialmente anotados y los costos prohibitivos de una anotación exhaustiva. Para validar la efectividad del método y establecer un estándar de oro, un intérprete profesional llevó a cabo la anotación manual de casi 500 videos del ASL STEM Wiki. Estas anotaciones humanas incluyen etiquetas de glosas a nivel de secuencia, conteniendo glosas, clasificadores y señas deletreadas.
Este avance representa un hito transformador para la investigación en IA del lenguaje de señas, al ofrecer una ruta viable para la creación de conjuntos de datos masivos y de alta calidad a una fracción del costo y el esfuerzo tradicionales. Además de la interpretación, los sistemas de generación de lenguaje de señas impulsados por IA tienen el potencial de revolucionar la comunicación, traduciendo idiomas escritos a videos con señas. Sin embargo, los sistemas actuales a menudo no satisfacen las necesidades de los usuarios debido a deficiencias en la traducción de estructuras gramaticales, la ausencia de señales faciales y lenguaje corporal, y una fidelidad visual y de movimiento insuficiente.
Esta iniciativa se inscribe en un marco más amplio de investigación de Apple Machine Learning que aborda diversos aspectos de la inteligencia artificial y su aplicación a la accesibilidad. Trabajos relacionados, como la investigación publicada en marzo de 2025 sobre la generación de lenguaje de señas con marcadores no manuales en la conferencia CHI, y estudios sobre el modelado de errores generalizables para la anotación de datos humanos de septiembre de 2024 en el Journal of Data and Information Quality, evidencian un compromiso continuo con la mejora de la calidad y la eficiencia en la creación de datos para sistemas de aprendizaje automático.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.