[IT}– Estas máquinas pueden leer los labios mejor que las personas expertas

01 DIC 2016

Alvaro Ibáñez, ‘Alvy’

Fue en una de las más inquietantes escenas de “2001: una odisea del espacio” (Stanley Kubrick, 1968).

Los dos astronautas que viajan hacia Júpiter se encierran en una cápsula y desconectan los micrófonos para evitar ser oídos por H.A.L. 9000, la inteligente computadora que controla la nave. Sospechan de su mal funcionamiento y dudan sobre si desconectarla; la decisión es crítica para la misión.

H.A.L., ciertamente, no puede oírlos, pero el director de la película nos da a entender en un excelente plano lo que está sucediendo: al fondo de la imagen, la cámara de H.A.L. está leyendo el movimiento de los labios de ambos astronautas durante la conversación y enterándose perfectamente de lo que traman contra él. El resto es historia del cine.

Como a veces sucede, algo que era propio de la ciencia-ficción hace unos pocos años empieza a estar a nuestro alcance hoy en día. Aunque la lectura de labios es una técnica realmente complicada, incluso para los más experimentados, la inteligencia artificial de los computadores puede realizarla de forma efectiva y, según se ha publicado recientemente, supera en precisión a los humanos.

El dato procede de un trabajo de investigadores de la Universidad de Oxford y se refiere a un sistema llamado LipNet [PDF] que emplea un modelo capaz de leer frases completas, es independiente de la persona que habla y emplea redes neuronales y aprendizaje automático (machine learning).

Una tarea llena de dificultades tecnológicas

Parte del problema para realizar esta tarea es que muchos de los movimientos de los labios (o “fonemas visuales”, llamados visemas, de los que hay unos 14) son prácticamente indistinguibles, incluso para los expertos; esos visemas están relacionados con unos 50 fonemas o sonidos individuales.

Una de las formas de mejorar la precisión en esa interpretación es utilizar el contexto para dar prioridad a palabras que encajan mejor con dichos visemas según el tema que se esté tratando. Algo en lo que los computadores son muy capaces. El resultado es que LipNet puede interpretar correctamente un 93,4% de las palabras, mientras que en la misma tarea un experto humano alcanza sólo el 79,6%.

Sus creadores dicen que LipNet llega a interpretar correctamente un 78% de «palabras sueltas» más que una persona sorda que esté acostumbrada a realizar esa misma lectura de labios.

Todo esto depende de muchas tecnologías, en especial del reconocimiento facial y de la geometría de la posición de los labios en las imágenes. Algo que está facilitando la llegada de mejores cámaras y más potentes procesadores y algoritmos, capaces de interpretar correctamente el ángulo de la imagen, las luces y sombras y cualquier otro pequeño detalle. Eso sin entrar en la dificultad que supone interpretar los rasgos de alguien con barba o bigote, por ejemplo.

Sonidos residuales, una ayuda importante

Otra forma de mejorar la eficiencia de la lectura de labios es aprovechar el sonido original, si acaso existe. Aunque muchas veces no está disponible, o no con la calidad necesaria (por ejemplo, el sonido ambiente de una sala llena de gente con varias conversaciones) a veces cualquier pequeña pista que se pueda extraer resulta útil. Ahí se puede aplicar un algoritmo de reconocimiento de voz convencional (como los de Apple, Google o Microsoft) e intentar aprovechar lo que se entienda, combinándolo con las imágenes.

De hecho, entre las personas sordas que tienen algún tipo de capacidad auditiva, por pequeña que sea, esto es una importante pista de cara a mejorar la lectura de labios, pues es un problema leer los labios sin ninguna otra pista si la persona se mueve demasiado, alguien se interpone o la luz es escasa.

Curiosamente, un estudio de la Universidad Florida Atlantic explicaba que los bebés aprenden a hablar tanto escuchando como fijándose en el movimiento de los labios, una especie de experiencia multisensorial.

Un problema cuando no se hace esto en tiempo real es que el vídeo y el audio de muchas grabaciones estén desincronizados, y, aunque para los seres humanos son aceptables incluso 5 décimas de segundo sin que percibamos la diferencia, no es así para las máquinas. Si esto sucede, la red neuronal se despista y es incapaz de interpretar correctamente lo que está viendo (porque oye otra cosa en ese instante) y ese entrenamiento no sirve. Es un efecto indeseable que se produce a veces con grabaciones de archivo.

Pruebas y aplicaciones prácticas

Google puso a trabajar a su inteligencia artificial DeepMind a aprender a leer los labios entrenándola con los vídeos de 5.000 horas de programación de la BBC, que incluían en total 118.000 frases y hasta 17.500 palabras distintas pronunciadas por personas con distintos rasgos en todo tipo de condiciones (luz ambiente, ángulos, movimientos, etcétera).

En una prueba llevada a cabo tras el análisis, DeepMind acertó el 46,8% de las palabras de 200 clips de vídeo, mientras que un profesional de lectura de labios tan sólo atinó con el 12,4% sin errores.

Las aplicaciones de todos estos sistemas son también muy interesantes. Además de servir para obtener transcripciones de vídeos en los que no hay sonido. o éste sea de baja calidad, pueden utilizarse para mejorar la precisión de las traducciones automáticas o interpretar a gran distancia una conversación si la imagen tiene suficiente detalle.

Las aplicaciones van desde la obtención de mejores transcripciones y traducciones automáticas, a nuevos sistemas de contraseñas o de interfaces persona-computador

También hay otras propuestas curiosas al respecto: una es utilizar la técnica como sistema de contraseñas que dependa no solo del tono de voz, sino también de la forma de mover los labios al pronunciar la palabra clave. Otra es usar esta tecnología en el interior de un coche (ambiente ruidoso) combinando reconocimiento de voz y lectura de labios.

Hyundai obtuvo una patente al respecto, con la premisa de que el coche entienda siempre a la persona y que no sea necesario mover la cabeza ni apartar la vista de la carretera para dirigirse al micrófono intentando minimizar el ruido.

La forma de comercializar este tipo de sistemas también ha cambiado: antiguamente había que comprar una costosa licencia de software o pagar una especie de royalties por todo lo que se obtuviera con invenciones derivadas, además de las casi obligatorias actualizaciones. Hoy se venden como servicios de pago-por-uso.

Un buen ejemplo sería Watson, la inteligencia artificial de IBM: el servicio de conversión de voz a texto cuesta 2 céntimos por minuto, y los primeros mil minutos mensuales son gratis. ¡Quién le hubiera dicho a H.A.L. que terminaríamos comprando inteligencia artificial “al peso”!

Fuente

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *