Saltar al contenido

CBOW vs skip-gram: ¿por qué invertir el contexto y las palabras objetivo?

Hacemos una verificación exhaustiva cada noticias en nuestra página web con la meta de enseñarte en todo momento la información más veraz y certera.

Aquí está mi comprensión simplificada y bastante ingenua de la diferencia:

Como la conocemos, CBOW es aprender a predecir la palabra por el contexto. O maximice la probabilidad de la palabra objetivo observando el contexto. Y esto resulta ser un problema para las palabras raras. Por ejemplo, dado el contexto yesterday was a really [...] day El modelo CBOW le dirá que lo más probable es que la palabra sea beautiful o nice. Palabras como delightful obtendrá mucha menos atención del modelo, porque está diseñado para predecir la palabra más probable. Esta palabra se suavizará en muchos ejemplos con palabras más frecuentes.

Por otro lado, el skip-gram El modelo está diseñado para predecir el contexto. Dada la palabra delightful debe entenderlo y decirnos que hay una gran probabilidad de que el contexto sea yesterday was really [...] day, o algún otro contexto relevante. Con skip-gram la palabra delightful no intentará competir con la palabra beautiful pero en vez, delightful+context los pares serán tratados como nuevas observaciones.

ACTUALIZAR

Gracias a @0xF por compartir este artículo.

Según Mikolov

Skip-grama: funciona bien con una pequeña cantidad de datos de entrenamiento, representa bien incluso palabras o frases raras.

CBOW: varias veces más rápido de entrenar que el skip-gram, precisión ligeramente mejor para las palabras frecuentes

Una adición más al tema se encuentra aquí:

En el modo “skip-gram” alternativo a “CBOW”, en lugar de promediar las palabras de contexto, cada una se usa como un ejemplo de entrenamiento por pares. Es decir, en lugar de un ejemplo CBOW como [predict ‘ate’ from
average(‘The’, ‘cat’, ‘the’, ‘mouse’)]la red se presenta con cuatro ejemplos de skip-gram [predict ‘ate’ from ‘The’], [predict ‘ate’
from ‘cat’], [predict ‘ate’ from ‘the’], [predict ‘ate’ from ‘mouse’]. (Se produce la misma reducción de ventana aleatoria, por lo que la mitad de las veces serían solo dos ejemplos, de las palabras más cercanas).

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)


Tags :

Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *