Cómo distingue la inteligencia artificial una imagen especular del original
Las cosas son diferentes al otro lado del espejo. El texto está al revés. Los relojes funcionan en sentido contrario a las agujas del reloj. Los coches circulan por el lado equivocado de la carretera. Las manos derechas se convierten en manos izquierdas.
Intrigados por cómo el reflejo cambia las imágenes de manera sutil y no tan sutil, un equipo de investigadores de la Universidad de Cornell usó la inteligencia artificial para investigar lo que diferencia a los originales de sus reflejos. Sus algoritmos aprendieron a captar pistas inesperadas como partes de cabello, dirección de la mirada y, sorprendentemente, barbas, hallazgos que tienen implicaciones para el adiestramiento de modelos de aprendizaje automático y la detección de imágenes falsas.
«El universo no es simétrico. Si volteas una imagen, hay diferencias», dijo Noah Snavely, profesor asociado de ciencias de la computación en la Universidad Tecnológica de Cornell y autor principal del estudio «Visual Chirality«, presentado en la Conferencia 2020 sobre Visión por Computadora y Reconocimiento de Patrones, celebrada virtualmente del 14 al 19 de junio. «Estoy intrigado por los descubrimientos que puedes hacer al usar nuevas formas de obtener información».
Zhiqui Lin es el autor principal del artículo; los coautores son Abe Davis, profesor adjunto de informática, y el investigador postdoctoral de Cornell Tech, Jin Sun.
Diferenciar entre las imágenes originales y los reflejos es una tarea sorprendentemente fácil para la IA, dijo Snavely: un algoritmo básico de aprendizaje profundo puede aprender rápidamente cómo clasificar si una imagen había sido volteada con una precisión del 60% al 90%, dependiendo de los tipos de imágenes utilizadas para entrenar el algoritmo. Muchas de las pistas que recogía eran difíciles de notar para los humanos.
Para este estudio, el equipo desarrolló una tecnología para crear un mapa de calor que indicase las partes de la imagen que eran de interés para el algoritmo, para comprender así cómo tomaba estas decisiones.
Descubrieron, y ello no es sorprendente, que la pista más comúnmente utilizada era el texto, que se ve diferente en cada idioma escrito. Para aprender más, eliminaron las imágenes con texto de su conjunto de datos, y descubrieron que el siguiente conjunto de características en las que se centraba el modelo incluía relojes de pulsera, cuellos de camisa (los botones tienden a estar en el lado izquierdo), rostros y teléfonos – que la mayoría de la gente tiende a llevar en la mano derecha – así como otros factores que revelan la condición de diestro.
Los investigadores estaban intrigados por la tendencia del algoritmo a centrarse en las caras, que no parecen obviamente asimétricas. «En cierto modo, dejó más preguntas que respuestas», dijo Snavely.
Luego realizaron otro estudio enfocado en los rostros y encontraron que el mapa de calor se iluminaba en áreas que incluían la parte del cabello, la mirada – la mayoría de la gente, por razones que los investigadores no conocen, mira a la izquierda en las fotos de retratos – y las barbas.
Snavely dijo que él y los miembros de su equipo no tienen idea de qué información estaba encontrando el algoritmo en las barbas, pero formularon la hipótesis de que la forma en que la gente se peina o se afeita la cara podría revelar si se es o no diestro.
«Es una forma de descubrimiento visual», dijo Snavely. «Si puedes hacer funcionar el aprendizaje automático a una escala de millones y millones de imágenes, tal vez puedas empezar a descubrir nuevos hechos sobre el mundo».
Cada una de estas pistas individualmente puede ser poco fiable, pero el algoritmo puede crear una mayor confianza combinando múltiples pistas, según mostraron los resultados. Los investigadores también encontraron que el algoritmo utiliza señales de bajo nivel, derivadas de la forma en que las cámaras procesan las imágenes, para tomar sus decisiones.
Aunque se necesitan más estudios, los resultados podrían afectar la forma en que se entrenan los modelos de aprendizaje automático. Estos modelos necesitan un gran número de imágenes para aprender a clasificar e identificar las imágenes, por lo que los científicos informáticos a menudo utilizan los reflejos de las imágenes existentes para duplicar eficazmente sus conjuntos de datos.
El examen de la forma en que estas imágenes reflejadas difieren de las originales podría revelar información sobre posibles sesgos en el aprendizaje automático que podrían conducir a resultados inexactos, dijo Snavely.
Entender cómo el reflejo cambia una imagen también podría ayudar a usar la IA para identificar imágenes que han sido falsificadas o manipuladas, un tema de creciente preocupación en Internet.
«Esta es quizás una nueva herramienta o fuente de información que puede ser usada en el universo de la imagen forense, si quieres saber si algo es real o no», dijo Snavely. (Fuente: NCYT Amazings)