Si encuentras algún problema con tu código o proyecto, recuerda probar siempre en un ambiente de testing antes aplicar el código al trabajo final.
Solución:
Primero comprueba si has descargado nltk
paquetes
Si no, puede descargarlo usando a continuación:
import nltk
nltk.download()
Después de esto, puede encontrar archivos de idioma de palabras vacías en la siguiente ruta.
C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords
Hay 21 idiomas soportados por él (instalé nltk
hace unos días, por lo que este número debe estar actualizado). Puede pasar el nombre de archivo como parámetro en
nltk.corpus.stopwords.words('langauage')
os.listdir('/root/nltk_data/corpora/stopwords/')
['hungarian',
'swedish',
'kazakh',
'norwegian',
'finnish',
'arabic',
'indonesian',
'portuguese',
'turkish',
'azerbaijani',
'slovene',
'spanish',
'danish',
'nepali',
'romanian',
'greek',
'dutch',
'README',
'tajik',
'german',
'english',
'russian',
'french',
'italian']
Cuando importa las palabras vacías usando:
from nltk.corpus import stopwords
english_stopwords = stopwords.words(language)
está recuperando las palabras vacías según el ID de archivo (idioma). Para ver todos los idiomas de palabras vacías disponibles, puede recuperar la lista de ID de archivos usando:
from nltk.corpus import stopwords
print(stopwords.fileids())
en el caso de nltk v3.4.5, esto devuelve 23 idiomas:
['arabic',
'azerbaijani',
'danish',
'dutch',
'english',
'finnish',
'french',
'german',
'greek',
'hungarian',
'indonesian',
'italian',
'kazakh',
'nepali',
'norwegian',
'portuguese',
'romanian',
'russian',
'slovene',
'spanish',
'swedish',
'tajik',
'turkish']
Nos puedes avalar nuestra tarea fijando un comentario y dejando una puntuación te estamos eternamente agradecidos.