Saltar al contenido

Epsilon y caída de la tasa de aprendizaje en epsilon greedy q learning

Solución:

Al principio, quieres que el épsilon sea alto para dar grandes saltos y aprender cosas.

Creo que te has equivocado de épsilon y tasa de aprendizaje. En realidad, esta definición está relacionada con la tasa de aprendizaje.

Decadencia de la tasa de aprendizaje

La tasa de aprendizaje es lo grande que da un salto en la búsqueda de una política óptima. En términos de QLearning simple, se trata de cuánto actualiza el valor Q con cada paso.

ingrese la descripción de la imagen aquí

Más alto alfa significa que está actualizando sus valores Q en grandes pasos. Cuando el agente esté aprendiendo, debe descomponerlo para estabilizar la salida de su modelo, que eventualmente convergerá en una política óptima.

Decaimiento de épsilon

Epsilon se usa cuando estamos seleccionando acciones específicas en base a los valores de Q que ya tenemos. Como ejemplo, si seleccionamos el método codicioso puro (épsilon = 0), siempre estamos seleccionando el valor q más alto entre todos los valores q para un estado específico. Esto causa problemas en la exploración, ya que podemos quedarnos atascados fácilmente en un óptimo local.

Por lo tanto, introducimos una aleatoriedad usando épsilon. Como ejemplo, si épsilon = 0.3, entonces estamos seleccionando acciones aleatorias con una probabilidad de 0.3 independientemente del valor q real.

Encuentre más detalles sobre la política de épsilon-codiciosos aquí.

En conclusión, la tasa de aprendizaje está asociada con qué tan grande da un salto y épsilon está asociado con qué tan aleatoria toma una acción. A medida que avanza el aprendizaje, ambos deberían decaer para estabilizar y explotar la política aprendida que converge hacia una óptima.

Como la respuesta de Vishma Dias describió la tasa de aprendizaje [decay], Me gustaría elaborar el método épsilon-codicioso que creo que la pregunta menciona implícitamente un decaído-épsilon-codicioso método de exploración y explotación.

Una forma de equilibrar la exploración y la explotación durante la formación de la política de RL es mediante el uso de la épsilon-codicioso método. Por ejemplo, épsilon= 0.3 significa que con una probabilidad = 0.3 la acción de salida se selecciona aleatoriamente del espacio de acción, y con una probabilidad = 0.7 la acción de salida se selecciona con avidez en base a argmax (Q).

Un método mejorado del épsilon-codicioso se llama decaído-épsilon-codicioso método. En este método, por ejemplo, entrenamos una política con totalmente N épocas / episodios (que depende del problema específico), el algoritmo establece inicialmente épsilon=pinit (p.ej, pinit= 0,6), luego disminuye gradualmente hasta terminar en épsilon=pend (p.ej, pend= 0,1) más nstep épocas / episodios de entrenamiento. Específicamente, en el proceso de entrenamiento inicial, dejamos que el modelo tenga más libertad para explorar con una alta probabilidad (p. Ej.,pinit= 0,6), y luego disminuya gradualmente el épsilon con una tarifa r sobre épocas / episodios de entrenamiento con la siguiente fórmula:

índice

ingrese la descripción de la imagen aquí

Con esta opción más flexible para terminar con una probabilidad de exploración muy pequeña pend, después nstep el proceso de formación se centrará más en la explotación (es decir, codicioso) mientras que todavía puede explorar con una probabilidad muy pequeña cuando la política es aproximadamente convergente.

Puede ver la ventaja del método decaído-épsilon-codicioso en esta publicación.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *