Estate atento ya que en este post vas a encontrar la respuesta que buscas.
Solución:
Probablemente tenía la intención de hacer un bucle sent_text
:
import nltk
sent_text = nltk.sent_tokenize(text) # this gives us a list of sentences
# now loop over each sentence and tokenize it separately
for sentence in sent_text:
tokenized_text = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokenized_text)
print(tagged)
Aquí hay una versión más corta. Esto le dará una estructura de datos con cada oración individual y cada token dentro de la oración. Prefiero el TweetTokenizer para el lenguaje desordenado del mundo real. El tokenizador de oraciones se considera decente, pero tenga cuidado de no reducir el uso de mayúsculas y minúsculas hasta después de este paso, ya que puede afectar la precisión de la detección de los límites del texto desordenado.
from nltk.tokenize import TweetTokenizer, sent_tokenize
tokenizer_words = TweetTokenizer()
tokens_sentences = [tokenizer_words.tokenize(t) for t in
nltk.sent_tokenize(input_text)]
print(tokens_sentences)
Así es como se ve la salida, que limpié para que la estructura se destaque:
[
['This', 'thing', 'seemed', 'to', 'overpower', 'and', 'astonish', 'the', 'little', 'dark-brown', 'dog', ',', 'and', 'wounded', 'him', 'to', 'the', 'heart', '.'],
['He', 'sank', 'down', 'in', 'despair', 'at', 'the', "child's", 'feet', '.'],
['When', 'the', 'blow', 'was', 'repeated', ',', 'together', 'with', 'an', 'admonition', 'in', 'childish', 'sentences', ',', 'he', 'turned', 'over', 'upon', 'his', 'back', ',', 'and', 'held', 'his', 'paws', 'in', 'a', 'peculiar', 'manner', '.'],
['At', 'the', 'same', 'time', 'with', 'his', 'ears', 'and', 'his', 'eyes', 'he', 'offered', 'a', 'small', 'prayer', 'to', 'the', 'child', '.']
]
Puntuaciones y reseñas
Te invitamos a favorecer nuestra función mostrando un comentario o valorándolo te damos las gracias.