Saltar al contenido

Valor óptimo de épsilon (ϵ-codicioso)

Esta noticia ha sido aprobado por especialistas así se garantiza la exactitud de este enunciado.

Solución:

Aunque en muchos casos simples el εk se mantiene como un número fijo en el rango 0 y 1, debes saber que: Generalmente, la exploración disminuye con el tiempo, por lo que la política utilizada asintóticamente se vuelve codiciosa y por lo tanto (como Qk → Q∗) óptima . Esto se puede lograr haciendo que εk se acerque a 0 a medida que k crece. Por ejemplo, un programa de exploración codicioso de ε de la forma εk = 1/k disminuye a 0 cuando k → ∞, mientras sigue satisfaciendo la segunda condición de convergencia de Q-learning, es decir, mientras permite infinitas visitas a todos los estados de acción. pares (Singh et al., 2000).

Lo que suelo hacer es esto: establecer el alfa inicial = 1/k (considere el k inicial = 1 o 2) después de probarlo a medida que k aumenta, el alfa disminuirá. también mantiene la convergencia garantizada.

valoraciones y comentarios

Si sostienes algún asunto y forma de aclarar nuestro ensayo te recordamos escribir una aclaración y con placer lo estudiaremos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *