▷Valor óptimo de épsilon (ϵ-codicioso) ✔️ Foro Ayuda 【 2024 】

Esta noticia ha sido aprobado por especialistas así se garantiza la exactitud de este enunciado.

Solución:

Aunque en muchos casos simples el εk se mantiene como un número fijo en el rango 0 y 1, debes saber que: Generalmente, la exploración disminuye con el tiempo, por lo que la política utilizada asintóticamente se vuelve codiciosa y por lo tanto (como Qk → Q∗) óptima . Esto se puede lograr haciendo que εk se acerque a 0 a medida que k crece. Por ejemplo, un programa de exploración codicioso de ε de la forma εk = 1/k disminuye a 0 cuando k → ∞, mientras sigue satisfaciendo la segunda condición de convergencia de Q-learning, es decir, mientras permite infinitas visitas a todos los estados de acción. pares (Singh et al., 2000).

Lo que suelo hacer es esto: establecer el alfa inicial = 1/k (considere el k inicial = 1 o 2) después de probarlo a medida que k aumenta, el alfa disminuirá. también mantiene la convergencia garantizada.

valoraciones y comentarios

Si sostienes algún asunto y forma de aclarar nuestro ensayo te recordamos escribir una aclaración y con placer lo estudiaremos.

¡Haz clic para puntuar esta entrada!

(Votos: 0 Promedio: 0)

Tags : Machine Learning / Q Learning / Reinforcement Learning /

Valor óptimo de épsilon (ϵ-codicioso)

Solución:

valoraciones y comentarios

Utiliza Nuestro Buscador

Preguntas Relacionadas: