▷leer datos de URL usando la plataforma Spark Databricks ✔️ Foro Ayuda 【 2024 】

Solución:

Prueba esto.

url = "https://raw.githubusercontent.com/thomaspernet/data_csv_r/master/data/adult.csv"
from pyspark import SparkFiles
spark.sparkContext.addFile(url)

**df = spark.read.csv("file://"+SparkFiles.get("adult.csv"), header=True, inferSchema= True)**

Solo obteniendo algunas columnas de su URL csv.

df.select("age","workclass","fnlwgt","education").show(10);
>>> df.select("age","workclass","fnlwgt","education").show(10);
+---+----------------+------+---------+
|age|       workclass|fnlwgt|education|
+---+----------------+------+---------+
| 39|       State-gov| 77516|Bachelors|
| 50|Self-emp-not-inc| 83311|Bachelors|
| 38|         Private|215646|  HS-grad|
| 53|         Private|234721|     11th|
| 28|         Private|338409|Bachelors|
| 37|         Private|284582|  Masters|
| 49|         Private|160187|      9th|
| 52|Self-emp-not-inc|209642|  HS-grad|
| 31|         Private| 45781|  Masters|
| 42|         Private|159449|Bachelors|
+---+----------------+------+---------+

SparkFiles obtiene la ruta absoluta del archivo que es local para su controlador o trabajador. Esa es la razón por la que no pudo encontrarlo.

¡Haz clic para puntuar esta entrada!

(Votos: 0 Promedio: 0)

leer datos de URL usando la plataforma Spark Databricks

Solución:

Utiliza Nuestro Buscador

Preguntas Relacionadas: