Esta noticia ha sido aprobado por especialistas así se garantiza la exactitud de este enunciado.
Solución:
Aunque en muchos casos simples el εk se mantiene como un número fijo en el rango 0 y 1, debes saber que: Generalmente, la exploración disminuye con el tiempo, por lo que la política utilizada asintóticamente se vuelve codiciosa y por lo tanto (como Qk → Q∗) óptima . Esto se puede lograr haciendo que εk se acerque a 0 a medida que k crece. Por ejemplo, un programa de exploración codicioso de ε de la forma εk = 1/k disminuye a 0 cuando k → ∞, mientras sigue satisfaciendo la segunda condición de convergencia de Q-learning, es decir, mientras permite infinitas visitas a todos los estados de acción. pares (Singh et al., 2000).
Lo que suelo hacer es esto: establecer el alfa inicial = 1/k (considere el k inicial = 1 o 2) después de probarlo a medida que k aumenta, el alfa disminuirá. también mantiene la convergencia garantizada.
valoraciones y comentarios
Si sostienes algún asunto y forma de aclarar nuestro ensayo te recordamos escribir una aclaración y con placer lo estudiaremos.