Cámaras que pueden aprender con inteligencia artificial

Las cámaras inteligentes podrían estar un paso más cerca gracias a una colaboración de investigación entre las universidades de Bristol y Manchester, que han desarrollado cámaras que pueden aprender y entender lo que están viendo.

Los expertos en robótica y los investigadores de la inteligencia artificial (IA) saben que hay un problema en cómo los sistemas actuales perciben y procesan el mundo. Actualmente, siguen combinando sensores, como las cámaras digitales diseñadas para grabar imágenes, con dispositivos de computación como las unidades de procesamiento de gráficos (GPU) diseñadas para acelerar los gráficos de los videojuegos.

Esto significa que los sistemas de inteligencia artificial perciben el mundo solo después de grabar y transmitir información visual entre los sensores y procesadores. Pero muchas cosas que se pueden ver son a menudo irrelevantes para la tarea en cuestión, como el detalle de las hojas en los árboles de la carretera durante el paso de un coche autónomo. Sin embargo, en este momento toda esta información es capturada por los sensores con un detalle meticuloso y enviada obstruyendo el sistema con datos irrelevantes, consumiendo energía y usando tiempo de procesamiento. Es necesario un enfoque diferente para permitir una visión eficiente de las máquinas inteligentes.

Dos trabajos de la colaboración entre Bristol y Manchester han mostrado cómo la detección y el aprendizaje pueden combinarse para crear novedosas cámaras para sistemas de inteligencia artificial.

Walterio Mayol-Cuevas, Profesor de Robótica, Visión por Computadora y Sistemas Móviles de la Universidad de Bristol e investigador principal (PI), comentó: «Para crear sistemas perceptivos eficientes necesitamos empujar los límites más allá de los caminos que hemos seguido hasta ahora. Podemos inspirarnos en la forma en que los sistemas naturales procesan el mundo visual: no lo percibimos todo, nuestros ojos y nuestros cerebros trabajan juntos para dar sentido al mundo y en algunos casos, los propios ojos hacen el procesamiento para ayudar al cerebro a reducir lo que no es relevante».

Esto puede verse, por ejemplo, en el ojo de la rana, que tiene detectores que localizan objetos parecidos a moscas, directamente en el punto donde se perciben las imágenes.

Los trabajos, uno dirigido por Laurie Bose y el otro por Yanan Liu en Bristol, han revelado dos refinamientos hacia este objetivo. Uno es implementar CNNs (Convolutional Neural Networks), una forma de algoritmo de inteligencia artificial para permitir la comprensión visual, directamente en el plano de la imagen. Las CNNs que el equipo ha desarrollado pueden clasificar “fotogramas” a miles de veces por segundo, sin tener que grabar estas imágenes o enviarlas a su procesamiento. Los investigadores consideraron demostraciones de clasificación de números escritos a mano, gestos con la mano e incluso clasificación de plancton.

La investigación sugiere un futuro con cámaras IA inteligentes, sistemas visuales que puedan simplemente enviar información de alto nivel al resto del sistema, como el tipo de objeto o evento que tiene lugar delante de la cámara. Este método haría que los sistemas fueran mucho más eficientes y seguros, ya que no es necesario grabar imágenes.

El trabajo ha sido posible gracias a la arquitectura SCAMP desarrollada por Piotr Dudek, de la Universidad de Manchester, y su equipo. El SCAMP es un chip procesador de cámara que el equipo describe como un Pixel Processor Array (PPA). Un PPA tiene un procesador incrustado en todos y cada uno de los píxeles que pueden comunicarse entre sí para procesar de forma verdaderamente paralela. Esto es ideal para las CNNs y los algoritmos de visión. (Fuente: NCYT Amazings)