Este team redactor ha pasado horas buscando la solución a tu pregunta, te compartimos la resolución de modo que nuestro objetivo es que te sea de mucha ayuda.
Las etiquetas que ve no son el resultado de los fragmentos, sino el etiquetado de POS que se produce antes del fragmento. Es el conjunto de etiquetas de Penn Treebank, consulte https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
Para obtener los fragmentos, busque subárboles dentro de las salidas fragmentadas. De la salida anterior, el Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])
indica el trozo.
Este sitio de tutorial es bastante útil para explicar el proceso de fragmentación en NLTK: http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf.
Para obtener documentación oficial, consulte http://www.nltk.org/howto/chunk.html
A pesar de que los enlaces anteriores tienen todo tipo. Pero espero que esto siga siendo útil para alguien, agregué algunos que se pierden en otros enlaces.
CC: Conjunción de coordinación
CD: Número cardinal
DT: Determinante
EX: existencial allí
FW: palabra extranjera
EN: Preposición o conjunción subordinante
JJ: Adjetivo
vicepresidente: Frase verbal
JJR: Adjetivo, comparativo
JJS: Adjetivo, superlativo
LS: Marcador de elemento de lista
Maryland: modales
NN: Sustantivo, singular o masa
ENN: Sustantivo, plural
PÁGINAS: Frase de preposición
PNN: Nombre propio, Sintagma singular
NNPS: Nombre propio, plural
PDT: Predeterminante
TPV: Final posesivo
PPR: Pronombre personal Frase
PPR: Frase pronombre posesivo
RB: Adverbio
RBR: Adverbio, comparativo
RBS: adverbio, superlativo
PR: Partícula
S: Cláusula declarativa simple
SBAR: Cláusula introducida por una conjunción subordinada (posiblemente vacía)
SBARQ: Pregunta directa introducida por una palabra wh o una frase wh.
SINV: Oración declarativa invertida, es decir, aquella en la que el sujeto sigue al verbo en tiempo verbal o modal.
cuadrado: Pregunta de sí/no invertida, o cláusula principal de una pregunta wh, después de la frase wh en SBARQ.
SIM: símbolo
VBD: Verbo, tiempo pasado
JBV: Verbo, gerundio o participio presente
VBN: Verbo, participio pasado
VBP: Verbo, presente que no sea 3ra persona del singular
VBZ: Verbo, 3ra persona singular presente
WDT: Wh-determinante
WP: pronombre Wh
WP: pronombre posesivo wh
WRB: Wh-adverbio
Como dijo Alvas anteriormente, estas etiquetas son parte del discurso que indica si una palabra/frase es una frase nominal, un adverbio, un determinante, un verbo, etc.
Aquí están los detalles de la etiqueta POS que puede consultar.
Chunking recovers the phrased from the Part of speech tags
Puede consultar este enlace para leer sobre la fragmentación.
Si conservas alguna suspicacia y capacidad de medrar nuestro artículo te evocamos añadir un comentario y con mucho gusto lo estudiaremos.