Saltar al contenido

¿Cómo leer un archivo Parquet en Pandas DataFrame?

Solución:

pandas 0.21 introduce nuevas funciones para Parquet:

pd.read_parquet("example_pa.parquet', engine="pyarrow")

o

pd.read_parquet('example_fp.parquet', engine="fastparquet")

El enlace anterior explica:

Estos motores son muy similares y deberían leer / escribir archivos de formato parquet casi idénticos. Estas bibliotecas se diferencian por tener diferentes dependencias subyacentes (fastparquet usando numba, mientras que pyarrow usa una biblioteca c).

Actualización: desde el momento en que respondí esto, se ha trabajado mucho en esta mirada en Apache Arrow para una mejor lectura y escritura de parquet. También: http://wesmckinney.com/blog/python-parquet-multithreading/

Hay un lector de parquet de Python que funciona relativamente bien: https://github.com/jcrobak/parquet-python

Creará objetos de Python y luego tendrá que moverlos a un Pandas DataFrame para que el proceso sea más lento que pd.read_csv por ejemplo.

Aparte de los pandas, Apache pyarrow también proporciona una forma de transformar parquet en marco de datos

El código es simple, solo escribe:

import pyarrow.parquet as pq

df = pq.read_table(source=your_file_path).to_pandas()

Para obtener más información, consulte el documento de Apache pyarrow Lectura y escritura de archivos individuales

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *