Basta ya de buscar en internet ya que estás al lugar indicado, contamos con la respuesta que buscas y sin complicarte.
Ver fuente en GitHub |
Clase de utilidad de tokenización de texto.
Ver alias
Compat alias para la migración
Ver Guía de migración para más detalles.
tf.keras.preprocessing.text.Tokenizer( num_words=None, filters='!"#$%&()*+,-./:;<=>[email protected][\]^_`~tn', lower=True, split=' ', char_level=False, oov_token=None, document_count=0,**kwargs )
Esta clase permite vectorizar un corpus de texto, convirtiendo cada texto en una secuencia de números enteros (cada número entero es el índice de un token en un diccionario) o en un vector donde el coeficiente de cada token podría ser binario, basado en el recuento de palabras. , basado en tf-idf …
Argumentos | |
---|---|
num_words |
el número máximo de palabras que se deben conservar, según la frecuencia de las palabras. Solo los mas comunes num_words-1 se guardarán las palabras. |
filters |
a string donde cada elemento es un personaje que se filtrará de los textos. El valor predeterminado es toda la puntuación, más tabulaciones y saltos de línea, menos el ' personaje. |
lower |
booleano. Ya sea para convertir los textos a minúsculas. |
split |
str. Separador para dividir palabras. |
char_level |
si es Verdadero, todos los caracteres se tratarán como una ficha. |
oov_token |
si se proporciona, se agregará a word_index y se usará para reemplazar palabras fuera del vocabulario durante las llamadas text_to_sequence |
De forma predeterminada, se elimina toda la puntuación, lo que convierte los textos en secuencias de palabras separadas por espacios (las palabras pueden incluir la '
personaje). Estas secuencias luego se dividen en listas de tokens. Luego se indexarán o vectorizarán.
0
es un índice reservado que no se asignará a ninguna palabra.
Métodos
fit_on_sequences
fit_on_sequences( sequences )
Actualiza el vocabulario interno basado en una lista de secuencias.
Requerido antes de usar sequences_to_matrix
(si fit_on_texts
nunca fue llamado).
Argumentos | |
---|---|
sequences |
Una lista de secuencia. Una “secuencia” es una lista de índices de palabras enteras. |
fit_on_texts
fit_on_texts( texts )
Actualiza el vocabulario interno basado en una lista de textos.
En el caso de que los textos contengan listas, asumimos que cada entrada de las listas es un token.
Requerido antes de usar texts_to_sequences
o texts_to_matrix
.
Argumentos | |
---|---|
texts |
puede ser una lista de cadenas, un generador de cadenas (para la eficiencia de la memoria) o una lista de listas de cadenas. |
get_config
get_config()
Devuelve la configuración del tokenizador como diccionario de Python. Los diccionarios de recuento de palabras utilizados por el tokenizador se serializan en JSON simple, de modo que otros proyectos puedan leer la configuración.
Devoluciones | |
---|---|
Un diccionario de Python con la configuración del tokenizador. |
sequences_to_matrix
sequences_to_matrix( sequences, mode='binary')
Convierte una lista de secuencias en una matriz Numpy.
Argumentos | |
---|---|
sequences |
lista de secuencias (una secuencia es una lista de índices de palabras enteras). |
mode |
uno de “binary”, “count”, “tfidf”, “freq” |
Devoluciones | |
---|---|
Una matriz Numpy. |
Eleva | |
---|---|
ValueError |
En caso de invalidez mode argumento, o si el Tokenizer requiere ajustarse a los datos de muestra. |
sequences_to_texts
sequences_to_texts( sequences )
Transforma cada secuencia en una lista de texto.
Solo arriba num_words-1
se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.
Argumentos | |
---|---|
sequences |
Una lista de secuencias (lista de números enteros). |
Devoluciones | |
---|---|
Una lista de textos (cadenas) |
sequences_to_texts_generator
sequences_to_texts_generator( sequences )
Transforma cada secuencia en sequences
a una lista de textos (cadenas).
Cada secuencia tiene una lista de números enteros. En otras palabras, las secuencias deben ser una lista de secuencias.
Solo arriba num_words-1
se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.
Argumentos | |
---|---|
sequences |
Una lista de secuencias. |
Rendimientos | |
---|---|
Produce textos individuales. |
texts_to_matrix
texts_to_matrix( texts, mode='binary')
Convierta una lista de textos en una matriz Numpy.
Argumentos | |
---|---|
texts |
lista de cadenas. |
mode |
uno de “binary”, “count”, “tfidf”, “freq”. |
Devoluciones | |
---|---|
Una matriz Numpy. |
texts_to_sequences
texts_to_sequences( texts )
Transforma cada texto en textos en una secuencia de números enteros.
Solo arriba num_words-1
se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.
Argumentos | |
---|---|
texts |
Una lista de textos (cadenas). |
Devoluciones | |
---|---|
Una lista de secuencias. |
texts_to_sequences_generator
texts_to_sequences_generator( texts )
Transforma cada texto en texts
a una secuencia de enteros.
Cada elemento de los textos también puede ser una lista, en cuyo caso asumimos que cada elemento de esa lista es un token.
Solo arriba num_words-1
se tendrán en cuenta las palabras más frecuentes. Solo se tendrán en cuenta las palabras conocidas por el tokenizador.
Argumentos | |
---|---|
texts |
Una lista de textos (cadenas). |
Rendimientos | |
---|---|
Produce secuencias individuales. |
to_json
to_json(**kwargs )
Devuelve un JSON string que contiene la configuración del tokenizador. Para cargar un tokenizador desde un JSON string, usar keras.preprocessing.text.tokenizer_from_json(json_string)
.
Argumentos | |
---|---|
**kwargs |
Argumentos de palabras clave adicionales que se pasarán a json.dumps() . |
Devoluciones | |
---|---|
Un JSON string que contiene la configuración del tokenizador. |
Nos puedes añadir valor a nuestro contenido participando con tu experiencia en las ilustraciones.