Portada » Ejemplo de pandas.DataFrame.to_parquet
Indagamos en el mundo on line para traerte la respuesta para tu problema, en caso de dificultades puedes dejar tu duda y te respondemos sin falta, porque estamos para ayudarte.
DataFrame.
to_parquet
( sendero = Ninguno , motor = ‘auto’ , compresión = ‘rápido’ , índice = Ninguno , particiones_cols = Ninguno , opciones_almacenamiento = Ninguno , ** kwargs ) [source]
Escriba un DataFrame en formato parquet binario.
Esta función escribe el marco de datos como un archivo de parquet . Puedes elegir diferentes backends de parquet y tener la opción de compresión. Ver la guía del usuario para más detalles.
Parámetros
sendero : str u objeto similar a un archivo, por defecto Ninguno
Si un string, se utilizará como ruta del directorio raíz al escribir un conjunto de datos particionado. Por objeto similar a un archivo, nos referimos a los objetos con un método write (), como un identificador de archivo (por ejemplo, a través de la función de apertura incorporada) o io.BytesIO. El motor fastparquet no acepta objetos similares a archivos. Si la ruta es Ninguna, se devuelve un objeto de bytes.
Modificado en la versión 1.2.0.
Anteriormente, esto era “fname”
motor : ‘auto’, ‘pyarrow’, ‘fastparquet’, predeterminado ‘auto’
Biblioteca de parquet a utilizar. Si es ‘auto’, entonces la opción io.parquet.engine
se utiliza. El valor por defecto io.parquet.engine
El comportamiento es probar ‘pyarrow’, volviendo a ‘fastparquet’ si ‘pyarrow’ no está disponible.
compresión : ‘rápido’, ‘gzip’, ‘brotli’, Ninguno, predeterminado ‘rápido’
Nombre de la compresión a utilizar. Usar None
sin compresión.
índice : bool, predeterminado Ninguno
Si True
, incluya el (los) índice (s) del marco de datos en la salida del archivo. Si False
, no se escribirán en el archivo. Si None
, Similar a True
Se guardarán los índices del marco de datos. Sin embargo, en lugar de guardarse como valores, el RangeIndex se almacenará como un rango en los metadatos, por lo que no requiere mucho espacio y es más rápido. Otros índices se incluirán como columnas en la salida del archivo.
Nuevo en la versión 0.24.0.
particiones_cols : lista, opcional, predeterminado Ninguno
Nombres de columna por los que particionar el conjunto de datos. Las columnas se dividen en el orden en que se dan. Debe ser Ninguno si la ruta no es un string.
Nuevo en la versión 0.24.0.
opciones_almacenamiento : dict, opcional
Opciones adicionales que tienen sentido para una conexión de almacenamiento en particular, por ejemplo, host, puerto, nombre de usuario, contraseña, etc., si usa una URL que será analizada por fsspec
, por ejemplo, comenzando con “s3: //”, “gcs: //”. Se generará un error si se proporciona este argumento con una URL que no sea fsspec. Consulte los documentos de implementación de almacenamiento de backend y fsspec para conocer el conjunto de keys y valores.
Nuevo en la versión 1.2.0.
** kwargs
Argumentos adicionales pasados a la biblioteca de parquet. Ver pandas io para más detalles.
Devoluciones
bytes si no se proporciona ningún argumento de ruta de otro modo Ninguno
Ver también
read_parquet
Leer un archivo de parquet.
DataFrame.to_csv
Escribe un archivo csv.
DataFrame.to_sql
Escribe en una tabla sql.
DataFrame.to_hdf
Escriba a hdf.
Notas
Esta función requiere el fastparquet o pyarrow Biblioteca.
Ejemplos de
>> > df = pd. DataFrame( data= 'col1' : [ 1 , 2 ] , 'col2' : [ 3 , 4 ] ) >> > df. to_parquet( 'df.parquet.gzip' , . . . compression= 'gzip' ) >> > pd. read_parquet( 'df.parquet.gzip' )
col1 col2
0 1 3 1 2 4
Si desea obtener un búfer para el contenido de parquet, puede usar un objeto io.BytesIO, siempre que no use partition_cols, que crea varios archivos.
>> > import io
>> > f = io. BytesIO( ) >> > df. to_parquet( f) >> > f. seek( 0 ) 0 >> > content = f. read( )
pandas.DataFrame.to_numpypandas.DataFrame.to_period
¡Haz clic para puntuar esta entrada!
Utiliza Nuestro Buscador