Al fin luego de tanto batallar pudimos hallar la solución de esta pregunta que muchos lectores de nuestro espacio tienen. Si quieres aportar algún dato no dejes de compartir tu conocimiento.
Solución:
Simplemente puede usar el paquete de flecha:
install.packages("arrow")
library(arrow)
read_parquet("myfile.parquet")
Con reticulate puedes usar pandas de python para leer archivos de parquet. Esto podría ahorrarle la molestia de ejecutar una instancia de Spark. Puede perder rendimiento en la serialización hasta que Apache Arrow publique su versión. Como se mencionó anteriormente en el comentario.
library(reticulate)
library(dplyr)
pandas <- import("pandas")
read_parquet <- function(path, columns = NULL)
path <- path.expand(path)
path <- normalizePath(path)
if (!is.null(columns)) columns = as.list(columns)
xdf <- pandas$read_parquet(path, columns = columns)
xdf <- as.data.frame(xdf, stringsAsFactors = FALSE)
dplyr::tbl_df(xdf)
read_parquet(PATH_TO_PARQUET_FILE)
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)