Saltar al contenido

Convierta un DataFrame Spark a pandas DF

Solución:

lo siguiente debería funcionar

some_df = sc.parallelize([
 ("A", "no"),
 ("B", "yes"),
 ("B", "yes"),
 ("B", "no")]
 ).toDF(["user_id", "phone_number"])
pandas_df = some_df.toPandas()

En mi caso, la siguiente conversión de Spark dataframe a pandas dataframe funcionó:

pandas_df = spark_df.select("*").toPandas()

Convertir el marco de datos de Spark a pandas puede llevar tiempo si tiene un marco de datos grande. Entonces puedes usar algo como a continuación:

spark.conf.set("spark.sql.execution.arrow.enabled", "true")

pd_df = df_spark.toPandas()

He intentado esto en DataBricks.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *