Saltar al contenido

Pyspark: selecciona una columna específica con su posición

El tutorial o código que hallarás en este post es la solución más eficiente y efectiva que encontramos a esta inquietud o problema.

Solución:

Siempre puede obtener el nombre de la columna con df.columns[n] y luego select eso:

df = spark.createDataFrame([[1,2], [3,4]], ['a', 'b'])

Para seleccionar la columna en la posición n:

n = 1
df.select(df.columns[n]).show()
+---+                                                                           
|  b|
+---+
|  2|
|  4|
+---+

Para seleccionar todo excepto la columna n:

n = 1

Puedes usar drop:

df.drop(df.columns[n]).show()
+---+
|  a|
+---+
|  1|
|  3|
+---+

O seleccione con nombres de columna construidos manualmente:

df.select(df.columns[:n] + df.columns[n+1:]).show()
+---+
|  a|
+---+
|  1|
|  3|
+---+

Sección de Reseñas y Valoraciones

Acuérdate de que tienes la capacidad de aclarar si te fue útil.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *