Saltar al contenido

¿Cómo generar un valor Hash o checksum en Python Dataframe (creado a partir de un archivo de ancho fijo)?

Si encuentras alguna parte que no entiendes puedes comentarlo y te responderemos rápidamente.

Solución:

Ahora puedes usar pd.util.hash_pandas_object

hashlib.sha1(pd.util.hash_pandas_object(df).values).hexdigest() 

Para un marco de datos con 50 millones de filas, este método me llevó 10 segundos frente a más de un minuto para el método to_json().

Usar string marco de datos de representación.

import hashlib

print(hashlib.sha256(df1.to_json().encode()).hexdigest())
print(hashlib.sha256(df2.to_json().encode()).hexdigest())

o

print(hashlib.sha256(df1.to_csv().encode()).hexdigest())
print(hashlib.sha256(df2.to_csv().encode()).hexdigest())

Aquí puedes ver las reseñas y valoraciones de los lectores

Si conservas alguna duda y disposición de desarrollar nuestro escrito te recordamos ejecutar un informe y con mucho placer lo observaremos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *