Saltar al contenido

¿Cómo leer un archivo de parquet en R sin usar paquetes de chispa?

Al fin luego de tanto batallar pudimos hallar la solución de esta pregunta que muchos lectores de nuestro espacio tienen. Si quieres aportar algún dato no dejes de compartir tu conocimiento.

Solución:

Simplemente puede usar el paquete de flecha:

install.packages("arrow")
library(arrow)
read_parquet("myfile.parquet")

Con reticulate puedes usar pandas de python para leer archivos de parquet. Esto podría ahorrarle la molestia de ejecutar una instancia de Spark. Puede perder rendimiento en la serialización hasta que Apache Arrow publique su versión. Como se mencionó anteriormente en el comentario.

library(reticulate)
library(dplyr)
pandas <- import("pandas")
read_parquet <- function(path, columns = NULL) 

  path <- path.expand(path)
  path <- normalizePath(path)

  if (!is.null(columns)) columns = as.list(columns)

  xdf <- pandas$read_parquet(path, columns = columns)

  xdf <- as.data.frame(xdf, stringsAsFactors = FALSE)

  dplyr::tbl_df(xdf)



read_parquet(PATH_TO_PARQUET_FILE)

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)


Tags : / /

Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *