Entrenamiento de modelos mediante Reinforcement Learning

En la ciencia de datos existen diversas áreas de investigación, entre la cuales se encuentra Reinforcement Learning (RL). Ante el avance del Deep Learning, las grandes cantidades de datos ya no representan una dificultad y han surgido nuevos modelos de entrenamiento de algoritmos como el ya mencionado RL.

Este es el tercer método que ha sido desarrollado, mediante el cual los algoritmos aprenden por sí mismos, después del aprendizaje supervisado y el aprendizaje no supervisado, de Machine Learning. En la actualidad, está despertando un interés notable en el entrenamiento de la robótica industrial.

Entrenamiento de modelos mediante Reinforcement Learning

Se basa en obtener recompensas ante el aprendizaje de una nueva tarea, es decir, consiste en entrenar modelos para la toma de decisiones sin requerir datos para el condicionamiento. Así pues, los datos se generan a través de un método de prueba y error, donde se marcan con una etiqueta. Durante varias fases de entrenamiento el algoritmo recibe marcas de recompensa cuando lleva a cabo la función correcta. Tras repetir la experiencia y verificar las recompensas recibidas, aprende por sí mismo.
En definitiva, es un aprendizaje autónomo por el cual se aprende la acción que debe realizarse al interactuar con el entorno, recibiendo señales de error o recompensas en función de las acciones que se lleven a cabo. Es decir, el sistema busca encontrar la toma de decisiones más eficiente que le permita maximizar las recompensas.

Aplicaciones

Las aplicaciones de RL son muy extensas y diversas, desde las finanzas, los sistemas de recomendación hasta la robótica. A continuación, se muestran algunos casos de aplicación que están siendo explorados:

  • Automatizacion de la industria con RL

Los robots que utilizan este tipo de aprendizaje en la industria se pueden emplear para diferentes acciones. Por ejemplo, los agentes de AI para enfriar los centros de datos sin intervención humana.

Google ha sido una de las empresas pioneras en poner en marcha este método de aprendizaje automático. Para ahorrar grandes cantidades de energía, Google emplea RL para controlar los flujos de aire acondicionado a sus centros de datos y poder así refrigerar sus servidores.

Otro caso de uso muy interesante son los modelos de series temporales supervisados para la predicción de ventas futuras. Así, al trabajar con un agente de RL, se puede tomar la decisión de compra o venta en banca de inversión. El modelo RL se evalúa utilizando estándares de referencia de mercado para garantizar su funcionamiento. IBM, por ejemplo, cuenta con una plataforma para operaciones financieras que calcula la recompensa en función de las ganancias o pérdidas de cada transacción mediante RL.

  • RL en PNL

Esta tecnología también es muy útil en la generación de respuestas, lecturas de texto y traducciones. Su funcionamiento en este ámbito consiste en seleccionar partes importantes de un texto y a través de un RNN generar respuestas a las palabras claves del texto.

Por tanto, permite la generación de conversaciones, obteniendo recompensas a través de palabras en su combinación con chatbots. El entrenamiento en este método se realiza entre dos agentes virtuales usando técnicas de recompensas al detectar coherencia y cumplimiento de las normas, así como respuestas adecuadas.

  • Mejora de aplicaciones con RL

En este ámbito, Facebook ha desarrollado una plataforma de RL de código abierto, conocida como Horizon, para optimizar los sistemas de producción a gran escala. Gracias a Horizon se pueden realizar mejoras como personalización de sugerencias y mejora del streaming.

Horizon, además, es capaz de trabajar en entornos simulados, plataformas distribuidas y sistemas de producción, de tal manera que el uso de RL en diferentes aplicaciones permite mejorar el seguimiento de los usuarios y, por ende, optimizar el CX.

  • RL en Videojuegos

Los videojuegos son idóneos para el RL, ya que incluyen diferentes entornos de simulación y opciones de control. Por lo general, el método de funcionamiento de los videojuegos es presentar un problema y obligar a resolverlo mediante tareas complejas, obteniendo puntuaciones o recompensas a cambio. RL aprende jugando contra sí mismo para mejorar la experiencia del usuario.

  • Manipulación Robótica

Para las líneas de ensamblaje, por ejemplo, hacer uso de RL permite reforzar los conocimientos de un robot para agarrar objetos, de forma que un modelo primero se entrena sin conexión y luego se despliega, corrigiendo los fallos hasta conseguir un rendimiento adecuado del robot real. A este enfoque se le conoce como QT-Opt, diseñado para agarrar objetos mediante robots.

Amazon en Reinforcement Learning

Amazon ha desarrollado la herramienta SageMaker Reinforcement Learning (RL) Kubeflow Components, un kit de herramientas compatible con el servicio AWS RoboMaker de la compañía para orquestar flujos de trabajo robóticos.

Esta gran compañía se vio envuelta en la necesidad de crear un marco de trabajo para entrenar, sincronizar e implementar modelos RL de manera eficiente ante su auge en el ML. SageMaker y RoboMaker aportan este marco de trabajo para el desarrollo de robots y nuevos algoritmos que impulsen la AI.

El complemento SageMaker se ha diseñado para administrar cargas de trabajo robóticas más rápidamente, creando soluciones de extremo a extremo sin tener que reconstruirlas cada vez que se requiere entrenar un modelo determinado. En este sentido, RL es idóneo para ayudar a desarrollar soluciones ante las dificultades y problemas que cada vez más se están acumulando en el ámbito de la robótica.

La empresa Woodside es una de las compañías que ha usado RoboMaker con operadores SageMaker para entrenar a sus robots mediante los modelos de RL, para gestionar sus tareas más peligrosas y repetitivas.

Usaron RL mediante RoboMaker y SageMaker para una plataforma robótica, cuya función es realizar un procedimiento de desactivación de bombas. Este procedimiento requiere giros manuales de diferentes válvulas en un orden determinado. Para llevar a cabo el desarrollo, se han utilizado estados conjuntos y vistas de cámara para definir los movimientos óptimos a realizar por el robot.

Desafíos

El uso de RL presenta desafíos importantes en los ámbitos de simulación del entorno, la elección del algoritmo adecuado y el ajuste de los parámetros. Respecto a la simulación del entorno, los modelos RL deben interactuar con él, pero en casos como optimización energética o aplicaciones para coches autónomos y robótica, su diseño es complejo. Así pues, se debe invertir en el cuidado de los detalles de la creación de entornos para entrenar correctamente a los algoritmos.

Además, elegir el algoritmo apropiado es fundamental ante la amplia variedad de modelos RL, porque disponen de varios hiperparámetros y cada uno de ellos tiene un enfoque distinto. Se deben evaluar las métricas requeridas para el desempeño del algoritmo.

Por último, si el entorno no está bien definido y cuidado, el algoritmo puede quedarse estancado en un punto, conocido como el dilema de exploración-explotación. Con cada entrenamiento el algoritmo aprende más de su entorno.

Conclusiones

Actualmente, el Reinforcement Learning es un área de investigación que poco a poco va haciendo progresos muy importantes dentro del Machine Learning para optimizar diferentes campos y desplegar su uso cotidiano.

Este tipo de aprendizaje automático se centra en problemas complejos a través de un enfoque de ensayo y error. Sin duda alguna, RL se puede aplicar en diferentes ámbitos, desde las finanzas a los sistemas de recomendación hasta los videojuegos o la robótica.

No obstante, también se debe tener en cuenta que es un método que requiere sesiones de entrenamiento con simulación, para en un futuro recibir las recompensas reales. En cualquier caso, el aprendizaje por refuerzo es un método del aprendizaje automático que permite resolver problemas cada vez más complejos y controlar gran variedad de procesos.

En definitiva, se busca que la AI sea capaz de resolver problemas de forma autónoma sin recibir instrucciones previas del ser humano. Este método demuestra ser más rápido y eficiente, y se espera obtener mejores resultados que los hasta ahora logrados por el Machine Learning convencional.