Saltar al contenido

¿Qué es la entropía cruzada?

Por fin luego de mucho trabajar hemos dado con el resultado de esta incógnita que muchos lectores de nuestra web han presentado. Si deseas compartir algún dato no dudes en dejar tu comentario.

Solución:

La entropía cruzada se usa comúnmente para cuantificar la diferencia entre dos distribuciones de probabilidad. Usualmente el “true”distribución (la que su algoritmo de aprendizaje automático está tratando de igualar) se expresa en términos de una distribución única.

Por ejemplo, supongamos que para una instancia de entrenamiento específica, el true la etiqueta es B (de las posibles etiquetas A, B y C). Por lo tanto, la distribución one-hot para esta instancia de entrenamiento es:

Pr(Class A)  Pr(Class B)  Pr(Class C)
        0.0          1.0          0.0

Puedes interpretar lo anterior. true distribución para significar que la instancia de entrenamiento tiene 0% de probabilidad de ser de clase A, 100% de probabilidad de ser de clase B y 0% de probabilidad de ser de clase C.

Ahora, suponga que su algoritmo de aprendizaje automático predice la siguiente distribución de probabilidad:

Pr(Class A)  Pr(Class B)  Pr(Class C)
      0.228        0.619        0.153

¿Qué tan cerca está la distribución predicha de la true ¿distribución? Eso es lo que determina la pérdida de entropía cruzada. Usa esta fórmula:

Fórmula de pérdida de entropía cruzada

Dónde p(x) es el true distribución de probabilidad, y q(x) la distribución de probabilidad predicha. La suma es sobre las tres clases A, B y C. En este caso la pérdida es 0.479 :

H = - (0.0*ln(0.228) + 1.0*ln(0.619) + 0.0*ln(0.153)) = 0.479

Así de “equivocada” o “lejana” está tu predicción desde el true distribución.

La entropía cruzada es una de las muchas funciones de pérdida posibles (otra popular es la pérdida de bisagra SVM). Estas funciones de pérdida generalmente se escriben como J(theta) y se pueden usar dentro del descenso de gradiente, que es un algoritmo iterativo para mover los parámetros (o coeficientes) hacia los valores óptimos. En la siguiente ecuación, reemplazarías J(theta) con H(p, q). Pero tenga en cuenta que necesita calcular la derivada de H(p, q) con respecto a los parámetros primero.

descenso de gradiente

Entonces, para responder a sus preguntas originales directamente:

¿Es solo un método para describir la función de pérdida?

Correcto, la entropía cruzada describe la pérdida entre dos distribuciones de probabilidad. Es una de las muchas funciones de pérdida posibles.

Entonces podemos usar, por ejemplo, el algoritmo de descenso de gradiente para encontrar el mínimo.

Sí, la función de pérdida de entropía cruzada se puede utilizar como parte del descenso de gradiente.

Lectura adicional: una de mis otras respuestas relacionadas con TensorFlow.

En resumen, la entropía cruzada (CE) es la medida de qué tan lejos está su valor predicho del true etiqueta.

La cruz aquí se refiere al cálculo de la entropía entre dos o más características / true etiquetas (como 0, 1).

Y el término entropía en sí mismo se refiere a la aleatoriedad, por lo que su gran valor significa que su predicción está lejos de las etiquetas reales.

Entonces, los pesos se cambian para reducir CE y, por lo tanto, finalmente conducen a una diferencia reducida entre la predicción y true etiquetas y, por lo tanto, una mayor precisión.

Si guardas alguna incertidumbre y disposición de avanzar nuestro sección puedes realizar una observación y con deseo lo observaremos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *