Resumen
En este trabajo presentamos la aplicación del aprendizaje por refuerzo, a través del algoritmo Q-learning, para conseguir que un robot diferencial de cuatro ruedas evada obstáculos en un escenario. Utilizando un simulador de robots para la física del sistema, se ejecutaron múltiples episodios donde el robot intentó evadir obstáculos mientras se entrenaba el agente para que aprendiera a penalizar situaciones de colisión o posible colisión. Nuestros resultados muestran que, en unas horas, es posible conseguir un agente entrenado para evitar colisionar con obstáculos en múltiples escenarios. Comparamos nuestro agente con un vehículo de Braitenberg diseñado para evadir obstáculos, mostrando que el desempeño del agente rivaliza con el algoritmo clásico, pero no requiere que un experto diseñe la estrategia.
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.