El futuro de las redes neuronales es el nuevo modelo GLOM de Hinton

El aprendizaje profundo fue uno de los grandes avances en el ámbito de la inteligencia artificial. Generalmente, existe una creencia de que el aprendizaje profundo podría ser todo lo que se necesita para replicar la inteligencia humana. Sin embargo, la realidad es que aún existen desafíos, ya que si se expone una red neuronal a un conjunto de datos desconocido se revelará esta de manera frágil.

Por ejemplo, en el caso de los coches autónomos aparentemente son eficaces, pero los sistemas de IA se pueden equivocar fácilmente. Si el sistema solo ha sido entrenado para identificar objetos desde perspectivas laterales, probablemente no reconozca estos desde una perspectiva superior.

Aprovechando el impacto y la gran inversión que conlleva el desarrollo de IA actualmente, día a día surgen nuevas propuestas para desarrollar el Deep Learning, el Machine Learning, nuevos algoritmos, etcétera.

El futuro de las redes neuronales es el nuevo modelo GLOM de Hinton

Recientemente, Geoffrey Hinton ha presentado GLOM un proyecto que aborda dos de los problemas más difíciles para los sistemas de percepción visual. En primer lugar, comprender una escena completa en relación con los objetos y sus partes naturales y, en segundo lugar, reconocer objetos cuando se ven desde una nueva perspectiva. A pesar de que actualmente el enfoque GLOM se centra en la visión, se espera su desarrollo para aplicaciones de lenguaje.

El problema de las redes es que agrupar partes puede ser complicado para los ordenadores, ya que en ocasiones las partes pueden ser ambiguas. Es decir, un círculo puede representar un ojo o una rueda. Inicialmente, la primera generación de IA intento reconocer objetos a partir de la geometría en una relación denominada parte-todo, que consiste en la orientación espacial entre las partes, y las entre las partes y el todo.

Paralelamente, la segunda generación se basó en el aprendizaje profundo, entrenando a la red neuronal con grandes volúmenes de datos e información. La idea de GLOM combina las mejores propiedades de ambas generaciones.

En consecuencia, GLOM presenta buenos expectativas hacia alcanzar la percepción de la IA de un método más humano que las redes neuronales actuales.

Por ello, si su apuesta es posible, Hinton desencadenará una nueva revolución de la inteligencia artificial como ya ha hecho en ocasiones anteriores. GLOM puede representar la próxima generación de redes neuronales artificiales.

La arquitectura GLOM

El desarrollo de esta arquitectura ha consistido básicamente en introducir estrategias intuitivas a la IA. Así pues, se trata de observar las heurísticas de las que la gente dispone, construir esas redes neuronales y, posteriormente, demostrar que dichas redes funcionan mejor en la visión como resultado.

Por tanto, con la percepción visual se analizan las partes de un objeto para que la IA sea capaz de comprender el todo. Por ejemplo, en el reconocimiento facial, podría reconocer únicamente la nariz de una persona para identificarla, esto sería una jerarquía de parte y todo.

En el ser humano, el cerebro es capaz de comprender este tipo de jerarquía parte-todo creando algo conocido como “árbol de análisis sintáctico”, este es un diagrama de ramificación capaz de demostrar la relación jerárquica entre el todo, sus partes y subpartes. Por ejemplo, un rostro sería la parte superior del árbol jerárquico, donde la nariz, la boca y los ojos serían las ramas que se encuentran por debajo y forman el todo.

Por ello, la idea inicial de Hinton con GLOM es replicar este árbol en una red neuronal, aunque replicarlo con exactitud es difícil debido a dificultades técnicas. La dificultad se encuentra en que la red neuronal tendría que analizar cada imagen individual en un árbol de análisis único, y la arquitectura estática de las redes dificulta la adopción de una nueva estructura para cada nueva imagen que se ve.

Entonces, la forma de comprender la arquitectura GLOM es dividir una imagen de interés en una cuadricula, donde cada parte de ella es una ubicación en la imagen. Ahora bien, para cada ubicación en la red hay entorno a cinco niveles y, nivel a nivel, el sistema hace una predicción con un vector que representa la información.

Por ejemplo, un primer nivel podría describir las pestañas de un ojo y, el siguiente nivel, encargado de construir una representación coherente, predice que es parte de la cara vista desde un ángulo concreto. Básicamente, esta coherencia se alcanza cuando los vectores del mismo nivel de varias ubicaciones apuntan en la misma dirección, generando una conclusión, la de que ambos vectores pertenecen al mismo ojo, y en niveles superiores del árbol, ambos vectores pertenecen a la misma cara.

No obstante, la red promedia selectivamente, mediante predicciones vecinas que muestran similitudes, es decir, solo se aceptan predicciones de ubicaciones similares mediante una cámara de eco. Esto significa, una situación en la que la información, es amplificada por transmisión y repetición en un sistema cerrado.

Así pues, en GLOM, los vectores que únicamente presenten ligeras variaciones de la misma dirección generan predicciones colectivas que se refuerzan y amplifican sobre una imagen.

¿Qué hace a GLOM diferente de otras redes neuronales?

Algunas redes neuronales recientes usan la concordancia entre vectores para la activación, mientras que GLOM usa las islas de vectores coincidentes, conocidas como islas de acuerdo, para obtener un convenio de representación de un árbol de análisis sintáctico en la red neuronal.

Los ejemplos en relación con diferentes partes faciales son muy adecuados para comprender GLOM. Uno de ellos es cuando diferentes vectores están en concordancia en que todos representar parte de un ojo, su grupo es representativo de un ojo en un árbol sintáctico de la red para la cara.

A su vez, otro grupo más grande de vectores coincidentes puede representar la nariz en el árbol, por tanto, el grupo que se encuentra en la parte superior del árbol representaría la deducción y conclusión de que la imagen en su conjunto representa un rostro humano.

En consecuencia, la representación del árbol de análisis sintáctico es que el objeto representa una gran isla y, a su vez, las partes del objeto representan islas de nivel inferior. Las subpartes son islas más pequeñas cada vez. En el caso del rostro, la pupila representa una isla más pequeña que la representada por el conjunto del ojo y que, al mismo tiempo, es más pequeña que la isla representada por el rostro.

GLOM: la intuición es crucial para la percepción

La finalidad principal de GLOM es alcanzar el objetivo de modelizar la intuición. Según Hinton, la intuición es crucial para la percepción. Por tanto, la intuición es definida en este ámbito como la capacidad de hacer analogías sin esfuerzo.

El ser humano le da coherencia a su entorno a partir del razonamiento analógico, mapeando similitudes entre objetos, ideas o conceptos, es decir, como de un vector a otro. Las similitudes entre vectores serian el método de como las redes neuronales emplearían un razonamiento intuitivo analógico. De otro modo dicho, la intuición es capaz de captar el método único en el que el cerebro humano genera conocimiento.

Así pues, el fin de GLOM es poder modelizar la intuición para las partes que no están bien definidas o si su percepción se ve dificultada por diversos factores, como la posición del objeto o el perfil desde el que se observa.

Primera puesta en marcha de GLOM

En Toronto, Google Research ha iniciado la etapa de investigación experimental de GLOM. Los ingenieros de software están usando simulaciones por ordenador para verificar si GLOM puede crear islas para comprender las partes y la totalidad de un objeto, siendo alguna de estas partes ambigua.

Actualmente, los experimentos están usando elipses de diferentes tamaños que pueden organizarse para formar una oveja y una cara. Mediante entradas aleatorias de diferentes elipses, el modelo debe crear predicciones y lidiar con la incertidumbre de si cada elipse forma parte de la oveja o de la cara, y dentro de estas que parte componen las elipses en ellas. Además, ante cualquier imprevisto, el modelo debería corregirse a sí mismo.

El próximo avance será definir una línea base, capaz de identificar si la red neuronal de aprendizaje profundo actual y común se equivocaría al realizar esta tarea. Hasta el momento GLOM, se está impulsando mediante la creación y etiquetación de datos para encontrar predicciones correctas.

Conclusiones

En conclusión, si GLOM alcanza el desafío de representar un árbol de análisis sintáctico en una red neuronal sería todo un éxito, pues haría que estas funcionaran correctamente sin apenas errores.

Geoff Hinton ha realizado grandes aportaciones de valor al mundo de la IA, muchas de sus intuiciones han demostrados ser correctas, y se espera que GLOM sea una más de ellas, sobre todo cuando el mismo creador del modelo deposita tan grandes esperanzas en ello.

Asimismo, el poder de este modelo reside en la analogía de la cámara de eco, en analogías matemáticas e, incluso, en algunas analogías biológicas. Todo ello, trae consigo un diseño disruptivo y novedoso en la ingeniería que rodea a la IA.

Inicialmente, la idea de GLOM nace como una especie de reflexión filosófica, pero tras las pruebas piloto de Google Research, está demostrando ser un modelo valido y eficaz. Anteriormente, los modelos de redes neuronales nunca parecieron en sus inicios una idea factible ni viable, pero han demostrado ser estudios que funcionan notablemente bien. Así pues, se espera que la tendencia para el modelo GLOM sea la misma.

No obstante, no se pretende que GLOM sea la clave de la IA capaz de resolver grandes problemas con agilidad, pero sí que sea uno de esos avances que dirija el futuro de las redes neuronales, brindándoles de una similitud a la del pensamiento humano, como basarse en experiencias pasadas, generalizar, extrapolar y comprender.

Por tanto, el futuro de la IA reside en ser lo más parecida al pensamiento del ser humano, ya que, si esta se pareciese más a las personas, los aspectos negativos y errores cometidos por las redes neuronales podrían predecirse y comprender su origen.

Sin embargo, por ahora este es un proyecto aún por desarrollar que se encuentra en fases experimentales, pero Hinton ha querido hacer esta información pública para todo aquel que quiera probarlo. Además, sugiere que el público haga combinaciones nuevas de esta idea, esperando alcanzar una nueva filosofía en la ciencia de la IA.