Saltar al contenido

NLTK idiomas disponibles para palabras vacías

Si encuentras algún problema con tu código o proyecto, recuerda probar siempre en un ambiente de testing antes aplicar el código al trabajo final.

Solución:

Primero comprueba si has descargado nltk paquetes
Si no, puede descargarlo usando a continuación:

import nltk
nltk.download()

Después de esto, puede encontrar archivos de idioma de palabras vacías en la siguiente ruta.

C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

Hay 21 idiomas soportados por él (instalé nltk hace unos días, por lo que este número debe estar actualizado). Puede pasar el nombre de archivo como parámetro en

nltk.corpus.stopwords.words('langauage')

os.listdir('/root/nltk_data/corpora/stopwords/')

['hungarian',
 'swedish',
 'kazakh',
 'norwegian',
 'finnish',
 'arabic',
 'indonesian',
 'portuguese',
 'turkish',
 'azerbaijani',
 'slovene',
 'spanish',
 'danish',
 'nepali',
 'romanian',
 'greek',
 'dutch',
 'README',
 'tajik',
 'german',
 'english',
 'russian',
 'french',
 'italian']

Cuando importa las palabras vacías usando:

from nltk.corpus import stopwords
english_stopwords = stopwords.words(language)

está recuperando las palabras vacías según el ID de archivo (idioma). Para ver todos los idiomas de palabras vacías disponibles, puede recuperar la lista de ID de archivos usando:

from nltk.corpus import stopwords
print(stopwords.fileids())

en el caso de nltk v3.4.5, esto devuelve 23 idiomas:

['arabic', 
 'azerbaijani', 
 'danish', 
 'dutch', 
 'english', 
 'finnish', 
 'french', 
 'german', 
 'greek',
 'hungarian', 
 'indonesian', 
 'italian', 
 'kazakh', 
 'nepali', 
 'norwegian', 
 'portuguese', 
 'romanian', 
 'russian', 
 'slovene', 
 'spanish', 
 'swedish', 
 'tajik', 
 'turkish']

Nos puedes avalar nuestra tarea fijando un comentario y dejando una puntuación te estamos eternamente agradecidos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *