Solución:
lo siguiente debería funcionar
some_df = sc.parallelize([
("A", "no"),
("B", "yes"),
("B", "yes"),
("B", "no")]
).toDF(["user_id", "phone_number"])
pandas_df = some_df.toPandas()
En mi caso, la siguiente conversión de Spark dataframe a pandas dataframe funcionó:
pandas_df = spark_df.select("*").toPandas()
Convertir el marco de datos de Spark a pandas puede llevar tiempo si tiene un marco de datos grande. Entonces puedes usar algo como a continuación:
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
pd_df = df_spark.toPandas()
He intentado esto en DataBricks.
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)