Inscreva-se no The Softtek Blog
Na ciência dos dados existem várias áreas de investigação, entre as quais a Reinforcement Learning (RL). Com o avanço da Deep Learning, grandes quantidades de dados já não representam uma dificuldade e surgiram novos modelos de treino de algoritmos, tais como o já referido RL.
Este é o terceiro método que foi desenvolvido, pelo qual os algoritmos aprendem por si próprios, após aprendizagem supervisionada e não supervisionada, Aprendizagem Mecânica. Está actualmente a atrair um interesse considerável na formação de robótica industrial.
Baseia-se na obtenção de recompensas ao aprender uma nova tarefa, ou seja, consiste em modelos de formação para a tomada de decisões sem requerer dados para condicionamento. Assim, os dados são gerados através de um método de tentativa e erro, onde são marcados com um rótulo. Durante várias fases de treino o algoritmo recebe etiquetas de recompensa quando executa a função correcta. Depois de repetir a experiência e verificar as recompensas recebidas, aprende por si só.
Em suma, é uma aprendizagem autónoma através da qual aprende a acção a ser executada quando interage com o ambiente, recebendo sinais de erro ou recompensas em função das acções realizadas. Ou seja, o sistema procura encontrar a tomada de decisão mais eficiente que lhe permita maximizar as recompensas.
As aplicações da RL são vastas e diversificadas, desde o financiamento, sistemas de recomendação até à robótica. Abaixo estão alguns casos de aplicação que estão a ser explorados:
Os robôs que utilizam este tipo de aprendizagem na indústria podem ser utilizados para diferentes acções. Por exemplo, agentes de IA para arrefecer centros de dados sem intervenção humana.
O Google tem sido um dos pioneiros na implementação deste método de aprendizagem de máquinas. Para poupar grandes quantidades de energia, a Google utiliza RL para controlar os fluxos de ar condicionado para os seus centros de dados, a fim de arrefecer os seus servidores.
Outro caso interessante de utilização é o dos modelos de séries cronológicas supervisionadas para prever vendas futuras. Assim, quando se trabalha com um agente RL, a decisão de comprar ou vender em bancos de investimento pode ser tomada. O modelo RL é avaliado utilizando referências de mercado para assegurar o seu desempenho. A IBM, por exemplo, tem uma plataforma de negociação financeira que calcula a recompensa com base nos lucros ou perdas de cada transacção utilizando RL.
Esta tecnologia é também muito útil na geração de respostas, leituras de texto e traduções. A sua operação nesta área consiste em seleccionar partes importantes de um texto e através de um RNN gerar respostas às palavras-chave do texto.
Portanto, permite a geração de conversas, obtendo recompensas através de palavras em combinação com chatbots. A formação neste método é realizada entre dois agentes virtuais utilizando técnicas de recompensa, detectando a consistência e o cumprimento das regras, bem como as respostas adequadas.
Nesta área, o Facebook desenvolveu uma plataforma RL de código aberto, conhecida como Horizon, para optimizar sistemas de produção em grande escala. Com Horizon, podem ser feitas melhorias tais como a personalização de sugestões e melhorias de streaming.
Horizon também é capaz de trabalhar em ambientes simulados, plataformas distribuídas e sistemas de produção, para que a utilização de RL em diferentes aplicações possa melhorar o seguimento dos utilizadores e, portanto, optimizar o CX.
Os videojogos são ideais para RL, pois incluem diferentes ambientes de simulação e opções de controlo. Geralmente, o método de funcionamento dos jogos de vídeo é apresentar um problema e forçar o jogador a resolvê-lo através de tarefas complexas, obtendo pontuações ou recompensas em troca. RL aprende jogando contra si próprio para melhorar a experiência do utilizador.
Para linhas de montagem, por exemplo, a utilização de RL permite reforçar as capacidades de apreensão de objectos de um robô, de modo a que um modelo seja primeiro treinado off-line e depois implantado, corrigindo falhas até ser atingido o desempenho adequado do robô real. Esta abordagem é conhecida como QT-Opt, concebida para agarrar robots.
A Amazon desenvolveu a ferramenta SageMaker Reinforcement Learning (RL) Kubeflow Components, um conjunto de ferramentas compatível com o serviço AWS RoboMaker da empresa para orquestrar fluxos de trabalho robotizados.
Esta grande empresa viu-se confrontada com a necessidade de criar uma estrutura para treinar, sincronizar e implantar eficazmente modelos RL face ao seu boom ML. SageMaker e RoboMaker fornecem esta estrutura para o desenvolvimento de robôs e novos algoritmos que impulsionam a IA.
O add-on SageMaker foi concebido para gerir mais rapidamente as cargas de trabalho robotizadas, criando soluções de ponta a ponta sem ter de as reconstruir cada vez que um determinado modelo necessita de ser treinado. Neste sentido, a RL é ideal para ajudar a desenvolver soluções para as dificuldades e problemas que se estão a acumular cada vez mais no campo da robótica.
Woodside é uma das empresas que tem usado RoboMaker com operadores SageMaker para treinar os seus robôs usando modelos RL para lidar com as suas tarefas mais perigosas e repetitivas.
Utilizaram RL usando RoboMaker e SageMaker para uma plataforma robótica, cuja função é realizar um procedimento de eliminação de bombas. Este procedimento exige voltas manuais de diferentes válvulas numa determinada ordem. Para realizar o desenvolvimento, foram utilizados estados conjuntos e vistas de câmara para definir os movimentos óptimos a serem realizados pelo robô.
O uso de RL apresenta desafios significativos nas áreas de simulação ambiental, a escolha do algoritmo adequado e a afinação de parâmetros. Relativamente à simulação do ambiente, os modelos RL devem interagir com ele, mas em casos como a optimização energética ou aplicações para automóveis autónomos e robótica, a sua concepção é complexa. Assim, é necessário investir no cuidado dos detalhes da criação do ambiente, a fim de treinar correctamente os algoritmos.
Além disso, a escolha do algoritmo apropriado é fundamental face à grande variedade de modelos RL, porque têm vários hiperparâmetros e cada um deles tem uma abordagem diferente. As métricas necessárias para o desempenho do algoritmo devem ser avaliadas.
Finalmente, se o ambiente não for bem definido e cuidado, o algoritmo pode ficar preso num ponto, conhecido como o dilema da exploração-exploração. Com cada formação o algoritmo aprende mais sobre o seu ambiente.
Actualmente, a Reinforcement Learning é uma área de investigação que está gradualmente a fazer progressos significativos dentro da Machine Learning para optimizar diferentes campos e implementar a sua utilização diária.
Este tipo de aprendizagem de máquinas centra-se em problemas complexos através de uma abordagem de tentativa e erro. Sem dúvida, a RL pode ser aplicada em diferentes campos, desde finanças a sistemas de recomendação a jogos de vídeo ou robótica.
No entanto, também se deve ter em conta que se trata de um método que requer sessões de treino de simulação, a fim de receber recompensas reais no futuro. Em qualquer caso, a aprendizagem de reforço é um método de aprendizagem mecânica que permite resolver problemas cada vez mais complexos e controlar uma grande variedade de processos.
Em última análise, o objectivo é que a IA seja capaz de resolver problemas de forma autónoma sem receber instruções prévias dos humanos. Este método revela-se mais rápido e mais eficiente, e espera-se que obtenha melhores resultados do que os alcançados até agora pela aprendizagem convencional de máquinas.