Saltar al contenido

Por qué consideramos la verosimilitud logarítmica en lugar de la verosimilitud en la distribución gaussiana

Isabel, miembro de nuestro staff, nos ha hecho el favor de redactar este enunciado porque domina a la perfección dicho tema.

Solución:

  1. Es extremadamente útil, por ejemplo, cuando desea calcular el
    probabilidad conjunta para un conjunto de puntos independientes e idénticamente distribuidos. Asumiendo que tienes tus puntos: $$X=x_1,x_2,ldots,x_N $$ La probabilidad total es el producto de la probabilidad de cada punto, es decir: $$p(XmidTheta) =prod_i=1^Np(x_imidTheta) $$ donde $Theta$ son los parámetros del modelo: vector de medias $mu$ y matriz de covarianza $Sigma$. Si usa el log-verosimilitud, obtendrá la suma en lugar del producto: $$ln p(XmidTheta)=sum_i=1^Nln p(x_imidTheta) $ PS
  2. También en el caso de Gaussian, te permite evitar el cálculo de la exponencial:

    $$p(xmidTheta) = dfrac1(sqrt2pi)^dsqrtdetSigmae^-frac12( x-mu)^T Sigma^-1(x-mu)$$ Que se convierte en:

    $$ln p(xmidTheta) = -fracd2ln(2pi)-frac12ln(det Sigma)-frac 12(x-mu)^TSigma^-1(x-mu)$$

  3. Como mencionaste, $ln x$ es una función monótonamente creciente, por lo que las probabilidades logarítmicas tienen las mismas relaciones de orden que las probabilidades:

    $$p(xmidTheta_1)>p(xmidTheta_2) Leftrightarrow ln p(xmidTheta_1)>ln p(xmidTheta_2)$$

  4. Desde el punto de vista de la complejidad computacional, puedes imaginar que, en primer lugar, sumar es menos costoso que multiplicar (aunque hoy en día son casi iguales). Pero lo que es aún más importante, las probabilidades se volverían muy pequeñas y se quedaría sin precisión de coma flotante muy rápidamente, lo que produciría un desbordamiento. Por eso es mucho más conveniente usar el logaritmo de la probabilidad. Simplemente intente calcular la probabilidad a mano, usando una calculadora de bolsillo, casi imposible.

    Además, en el marco de clasificación puede simplificar aún más los cálculos. Las relaciones de orden seguirán siendo válidas si eliminas la división por $2$ y el término $dln(2pi)$. Puede hacerlo porque estos son independientes de la clase. Además, como se podría notar si la varianza de ambas clases es la misma ($Sigma_1=Sigma_2 $), también puede eliminar el término $ln(det Sigma) $.

En primer lugar, como se indicó, el logaritmo aumenta monótonamente, por lo que maximizar la probabilidad es equivalente a maximizar la probabilidad del logaritmo. Además, se puede hacer uso de $ln(ab) = ln(a) + ln(b)$. Muchas ecuaciones se simplifican significativamente porque uno obtiene sumas donde antes tenía productos y ahora uno puede maximizar simplemente tomando derivados y estableciendo un valor igual a $0$.

Nos puedes secundar nuestra investigación dejando un comentario y dejando una puntuación te lo agradecemos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *