Estrategia donde un modelo aprende mediante la interacción con su entorno, recibiendo recompensas o penalizaciones.