Un robot doméstico entrenado para realizar tareas domésticas en una fábrica puede no ser capaz de fregar eficazmente el fregadero o sacar la basura cuando se utiliza en la cocina de un usuario, ya que este nuevo entorno difiere de su espacio de entrenamiento. Sin embargo, los investigadores del Instituto Tecnológico de Massachussets (MIT) han descubierto que a veces el entrenamiento en un entorno completamente diferente produce un agente de inteligencia artificial (IA) con mejor rendimiento.
Los investigadores estudiaron este fenómeno entrenando a agentes de IA para que jugaran a juegos de Atari, a los que modificaron añadiendo cierta imprevisibilidad. Se sorprendieron al descubrir que el efecto del entrenamiento en interiores se producía de forma constante en todos los juegos de Atari y en todas sus variantes.
Los investigadores se propusieron explorar por qué los agentes de aprendizaje de refuerzo tienden a tener un desempeño tan pésimo cuando se los prueba en entornos diferentes de su espacio de entrenamiento.
Método de aprendizaje de refuerzo
El aprendizaje de refuerzo es un método de prueba y error en el que el agente explora un espacio de entrenamiento y aprende a realizar acciones que maximizan su recompensa. El equipo desarrolló una técnica para agregar explícitamente una cierta cantidad de ruido a un elemento del problema de aprendizaje de refuerzo, llamada función de transición. La función de transición define la probabilidad de que un agente pase de un estado a otro, en función de la acción que elija.
Si el agente está jugando a Pac-Man, una función de transición podría definir la probabilidad de que los fantasmas en el tablero de juego se muevan hacia arriba, hacia abajo, hacia la izquierda o hacia la derecha. En el aprendizaje por refuerzo estándar, la IA se entrenaría y se probaría utilizando la misma función de transición.
Los investigadores agregaron ruido a la función de transición con este enfoque convencional y, como se esperaba, afectó el rendimiento del agente en Pac-Man. Pero cuando los investigadores entrenaron al agente con un juego de Pac-Man sin ruido y luego lo probaron en un entorno donde inyectaron ruido en la función de transición, funcionó mejor que un agente entrenado en el juego ruidoso.
Para ver si el efecto del entrenamiento en interiores se producía en los juegos normales de Pac-Man, ajustaron las probabilidades subyacentes para que los fantasmas se movieran normalmente, pero tuvieran más probabilidades de moverse hacia arriba y hacia abajo, en lugar de hacia la izquierda y la derecha. Los agentes de IA entrenados en entornos sin ruidos se desempeñaron mejor en estos juegos realistas.
Resultados de la exploración
Cuando los investigadores profundizaron en la búsqueda de una explicación, vieron algunas correlaciones en cómo los agentes de IA exploran el espacio de entrenamiento. Cuando ambos agentes de IA exploran básicamente las mismas áreas, el agente entrenado en el entorno sin ruido tiene un mejor desempeño, tal vez porque le resulta más fácil aprender las reglas del juego sin la interferencia del ruido.
Si sus patrones de exploración son diferentes, el agente entrenado en el entorno ruidoso tiende a tener un mejor desempeño. Esto puede ocurrir porque el agente necesita comprender patrones que no puede aprender en el entorno sin ruido.
En el futuro, los investigadores esperan explorar cómo podría producirse el efecto del entrenamiento en interiores en entornos de aprendizaje de refuerzo más complejos o con otras técnicas como la visión artificial y el procesamiento del lenguaje natural. También quieren crear entornos de entrenamiento diseñados para aprovechar el efecto del entrenamiento en interiores, lo que podría ayudar a los agentes de IA a desempeñarse mejor en entornos inciertos.