Hacemos una verificación exhaustiva cada una de las secciones en nuestro espacio con el objetivo de enseñarte en todo momento la información más veraz y actual.
Solución:
Podría volver al propio Markov, quien en 1913 aplicó el concepto de una cadena de Markov a secuencias de vocales y consonantes en el poema Eugene Onegin de Alexander Pushkin. En buena aproximación, se encontró que la probabilidad de la aparición de una vocal depende solo de la letra inmediatamente anterior, con $ p _ text vocal después de consonante = 0.663 $ y $ p _ text vocal tras vocal = 0,128 $. Estos números resultaron ser específicos del autor, lo que sugiere un método para identificar a los autores de textos desconocidos. (Aquí hay una implementación de Mathematica). Brian Hayes escribió un artículo divertido en el que analizaba cómo “la probabilidad y la poesía eran socios poco probables en la creación de una herramienta computacional”.
Las primeras 100 letras cirílicas de un total de 20.000 letras compiladas por Markov del primer capítulo y medio del poema de Pushkin. Los números que rodean el bloque de letras se utilizaron para demostrar que la aparición de vocales es una cadena de Markov. [source of figure]
Considere el algoritmo Metropolis-Hastings, que es un método MCMC, es decir, un método Monte Carlo de propósito general para producir muestras a partir de una distribución de probabilidad dada. El método funciona generando una cadena de Markov a partir de una determinada propuesta de la cadena de Markov como sigue. Una propuesta de movimiento se calcula de acuerdo con la propuesta de la cadena de Markov, y luego se acepta con una probabilidad que asegura la Cadena metropolizada (el producido por el algoritmo Metropolis-Hastings) conserva la distribución de probabilidad dada.
Esta cadena Metropolizada es un “ejemplo sorprendente de una cadena de Markov” porque la probabilidad de aceptación en cada paso de la cadena depende de ambos el estado actual de la cadena y el estado propuesto. Sin embargo, la sorpresa desaparece un poco una vez que uno se da cuenta de que el siguiente estado de la cadena Metropolizada no coincide necesariamente con el movimiento propuesto, y que el siguiente estado de la cadena podría ser de hecho el estado actual de la cadena si el movimiento propuesto se rechaza.
Para una introducción expositiva a las cadenas metropolizadas, consulte The MCMC Revolution de P. Diaconis, y vea también, A Geometric Interpretation of the Metropolis-Hasting Algorithm por LJ Billera y P. Diaconis. Aquí hay una cita de este último.
los [Metropolis-Hastings] El algoritmo se utiliza ampliamente para simulaciones en física, química, biología y estadística. Aparece como la primera entrada de una lista reciente de grandes algoritmos de la informática científica del siglo XX. Sin embargo, para muchas personas (incluidos los autores presentes) el algoritmo Metropolis-Hastings parece un truco de magia. Es difícil ver de dónde viene o por qué funciona.
AGREGAR
Otros ejemplos “sorprendentes” (y relacionados) los dan MALA, Hamiltonian Monte-Carlo, Extra Chances Hamiltonian Monte-Carlo, Riemann Manifold Langevin y Hamiltonian Monte Carlo, Multiple-try Metropolis y Parallel Tempering, que son todos métodos MCMC. Como en el ejemplo anterior, estas cadenas son inesperadamente markovianas porque sus probabilidades de aceptación (las probabilidades que determinan la actualización real de la cadena) son funciones del estado actual de la cadena y del movimiento o movimientos propuestos.
Permítanme desarrollar un poco el método de templado paralelo y lo que lo convierte en un ejemplo sorprendente. El objetivo del método es tomar muestras de una distribución de probabilidad con un panorama energético multimodal, que se puede considerar como una versión de alta dimensión de:
La dificultad de tomar muestras de una distribución de probabilidad con un panorama energético como este no es solo el hecho de que hay muchos modos, sino que las barreras de energía entre estos modos pueden ser demasiado altas para que las supere un método MCMC simple. En pocas palabras, incluso calcular la media y la varianza de esta distribución podría no ser práctico si se utilizan métodos simples de MCMC.
La idea básica en el templado paralelo es introducir un parámetro de temperatura ficticio que aplana la distribución de probabilidad deseada y, por lo tanto, facilita la toma de muestras mediante el uso de un método MCMC simple. Luego, se construye una secuencia de distribuciones desde una distribución suficientemente plana (a alta temperatura) hasta la distribución de probabilidad deseada (a menor temperatura). Luego, se ejecuta una secuencia de cadenas para muestrear de esta secuencia de distribuciones.
Cada una de estas cadenas evoluciona a su propia temperatura, pero ocasionalmente uno intercambia los estados entre estas cadenas para que la cadena que corre a la temperatura más baja explore su paisaje de manera más eficiente. (Desafortunadamente, las muestras generadas a temperaturas más altas no se pueden usar directamente para tomar muestras de la distribución deseada a la temperatura más baja de la secuencia).
Como ejemplo concreto, considere la posibilidad de aplicar un revenido paralelo a una molécula de pentano de 15 grados de libertad. El objetivo aquí es tomar una muestra de la distribución de equilibrio de esta molécula en el plano definido por sus dos ángulos diedros (estos son ciertos grados internos de libertad de la molécula). Esta distribución tiene nueve modos (correspondientes a diferentes conformaciones moleculares). Aquí hay una imagen que muestra la secuencia de distribuciones de probabilidad donde los puntos representan los estados de las cadenas de MCMC a cuatro niveles de temperatura diferentes. (El parámetro $ beta $ es la temperatura inversa).
Es fácil observar el avión a la temperatura más alta (la más baja $ beta $), ya que los puntos están más dispersos en ese plano. Volviendo al tema, no se aceptan todos los intercambios, y la probabilidad de intercambiar cadenas a diferentes temperaturas en el revenido paralelo depende de ambos los estados actual e intercambiado de la cadena. Además, como en Metropolis-Hastings, la probabilidad de aceptar un movimiento propuesto para las cadenas a diferentes temperaturas también depende de ambos el estado actual y propuesto de la cadena. Esta dependencia es esencial para que la cadena conserve la distribución de probabilidad correcta en el espacio ampliado. Entonces, a primera vista, puede parecer que la cadena de templado paralela no es Markov. Sin embargo, como en Metropolis-Hastings, se puede mostrar explícitamente que la probabilidad de transición de la cadena de templado en paralelo solo depende de su estado actual.
Creo que si $ (X_n) $ es una caminata aleatoria simple sesgada en $[-N,N]$, entonces $ | X_n | $ es una cadena de Markov.
Agradecemos que desees corroborar nuestro ensayo exponiendo un comentario o dejando una puntuación te damos la bienvenida.