Solución:
pandas 0.21 introduce nuevas funciones para Parquet:
pd.read_parquet("example_pa.parquet', engine="pyarrow")
o
pd.read_parquet('example_fp.parquet', engine="fastparquet")
El enlace anterior explica:
Estos motores son muy similares y deberían leer / escribir archivos de formato parquet casi idénticos. Estas bibliotecas se diferencian por tener diferentes dependencias subyacentes (fastparquet usando numba, mientras que pyarrow usa una biblioteca c).
Actualización: desde el momento en que respondí esto, se ha trabajado mucho en esta mirada en Apache Arrow para una mejor lectura y escritura de parquet. También: http://wesmckinney.com/blog/python-parquet-multithreading/
Hay un lector de parquet de Python que funciona relativamente bien: https://github.com/jcrobak/parquet-python
Creará objetos de Python y luego tendrá que moverlos a un Pandas DataFrame para que el proceso sea más lento que pd.read_csv
por ejemplo.
Aparte de los pandas, Apache pyarrow también proporciona una forma de transformar parquet en marco de datos
El código es simple, solo escribe:
import pyarrow.parquet as pq
df = pq.read_table(source=your_file_path).to_pandas()
Para obtener más información, consulte el documento de Apache pyarrow Lectura y escritura de archivos individuales