Ver fuente en GitHub

Clase de utilidad de tokenización de texto.

Ver alias

Compat alias para la migración

Ver Guía de migración para más detalles.

tf.compat.v1.keras.preprocessing.text.Tokenizer

tf.keras.preprocessing.text.Tokenizer(
    num_words=None,
    filters='!"#$%&()*+,-./:;<=>[email protected][\]^_`~tn',
    lower=True, split=' ', char_level=False, oov_token=None,
    document_count=0,**kwargs
)

Esta clase permite vectorizar un corpus de texto, convirtiendo cada texto en una secuencia de números enteros (cada número entero es el índice de un token en un diccionario) o en un vector donde el coeficiente de cada token podría ser binario, basado en el recuento de palabras. , basado en tf-idf …

Argumentos
num_words el número máximo de palabras que se deben conservar, según la frecuencia de las palabras. Solo los mas comunes num_words-1 se guardarán las palabras.
filters a string donde cada elemento es un personaje que se filtrará de los textos. El valor predeterminado es toda la puntuación, más tabulaciones y saltos de línea, menos el ' personaje.
lower booleano. Ya sea para convertir los textos a minúsculas.
split str. Separador para dividir palabras.
char_level si es Verdadero, todos los caracteres se tratarán como una ficha.
oov_token si se proporciona, se agregará a word_index y se usará para reemplazar palabras fuera del vocabulario durante las llamadas text_to_sequence

De forma predeterminada, se elimina toda la puntuación, lo que convierte los textos en secuencias de palabras separadas por espacios (las palabras pueden incluir la ' personaje). Estas secuencias luego se dividen en listas de tokens. Luego se indexarán o vectorizarán.

0 es un índice reservado que no se asignará a ninguna palabra.

Métodos

fit_on_sequences

Ver fuente

fit_on_sequences(
    sequences
)

Actualiza el vocabulario interno basado en una lista de secuencias.

Requerido antes de usar sequences_to_matrix (si fit_on_texts nunca fue llamado).

Argumentos
sequences Una lista de secuencia. Una “secuencia” es una lista de índices de palabras enteras.

fit_on_texts

Ver fuente

fit_on_texts(
    texts
)

Actualiza el vocabulario interno basado en una lista de textos.

En el caso de que los textos contengan listas, asumimos que cada entrada de las listas es un token.

Requerido antes de usar texts_to_sequences o texts_to_matrix.

Argumentos
texts puede ser una lista de cadenas, un generador de cadenas (para la eficiencia de la memoria) o una lista de listas de cadenas.

get_config

Ver fuente

get_config()

Devuelve la configuración del tokenizador como diccionario de Python. Los diccionarios de recuento de palabras utilizados por el tokenizador se serializan en JSON simple, de modo que otros proyectos puedan leer la configuración.

Devoluciones
Un diccionario de Python con la configuración del tokenizador.

sequences_to_matrix

Ver fuente

sequences_to_matrix(
    sequences, mode='binary')

Convierte una lista de secuencias en una matriz Numpy.

Argumentos
sequences lista de secuencias (una secuencia es una lista de índices de palabras enteras).
mode uno de “binary”, “count”, “tfidf”, “freq”
Devoluciones
Una matriz Numpy.
Eleva
ValueError En caso de invalidez mode argumento, o si el Tokenizer requiere ajustarse a los datos de muestra.

sequences_to_texts

Ver fuente

sequences_to_texts(
    sequences
)

Transforma cada secuencia en una lista de texto.

Solo arriba num_words-1 se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.

Argumentos
sequences Una lista de secuencias (lista de números enteros).
Devoluciones
Una lista de textos (cadenas)

sequences_to_texts_generator

Ver fuente

sequences_to_texts_generator(
    sequences
)

Transforma cada secuencia en sequences a una lista de textos (cadenas).

Cada secuencia tiene una lista de números enteros. En otras palabras, las secuencias deben ser una lista de secuencias.

Solo arriba num_words-1 se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.

Argumentos
sequences Una lista de secuencias.
Rendimientos
Produce textos individuales.

texts_to_matrix

Ver fuente

texts_to_matrix(
    texts, mode='binary')

Convierta una lista de textos en una matriz Numpy.

Argumentos
texts lista de cadenas.
mode uno de “binary”, “count”, “tfidf”, “freq”.
Devoluciones
Una matriz Numpy.

texts_to_sequences

Ver fuente

texts_to_sequences(
    texts
)

Transforma cada texto en textos en una secuencia de números enteros.

Solo arriba num_words-1 se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.

Argumentos
texts Una lista de textos (cadenas).
Devoluciones
Una lista de secuencias.

texts_to_sequences_generator

Ver fuente

texts_to_sequences_generator(
    texts
)

Transforma cada texto en texts a una secuencia de enteros.

Cada elemento de los textos también puede ser una lista, en cuyo caso asumimos que cada elemento de esa lista es un token.

Solo arriba num_words-1 se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.

Argumentos
texts Una lista de textos (cadenas).
Rendimientos
Produce secuencias individuales.

to_json

Ver fuente

to_json(**kwargs
)

Devuelve un JSON string que contiene la configuración del tokenizador. Para cargar un tokenizador desde un JSON string, usar keras.preprocessing.text.tokenizer_from_json(json_string).

Argumentos
**kwargs Argumentos de palabras clave adicionales que se pasarán a json.dumps().
Devoluciones
Un JSON string que contiene la configuración del tokenizador.