Solución:
Aquí se explica cómo hacerlo con las funciones de la API.
Suponga que su DataFrame fuera el siguiente:
df.show()
#+---+---------+
#| id| letters|
#+---+---------+
#| 1|[a, b, c]|
#| 2|[d, e, f]|
#| 3|[g, h, i]|
#+---+---------+
df.printSchema()
#root
# |-- id: long (nullable = true)
# |-- letters: array (nullable = true)
# | |-- element: string (containsNull = true)
Puede utilizar corchetes para acceder a elementos en el letters
columna por índice, y envuélvalo en una llamada a pyspark.sql.functions.array()
para crear un nuevo ArrayType
columna.
import pyspark.sql.functions as f
df.withColumn("first_two", f.array([f.col("letters")[0], f.col("letters")[1]])).show()
#+---+---------+---------+
#| id| letters|first_two|
#+---+---------+---------+
#| 1|[a, b, c]| [a, b]|
#| 2|[d, e, f]| [d, e]|
#| 3|[g, h, i]| [g, h]|
#+---+---------+---------+
O si tiene demasiados índices para enumerar, puede usar una lista de comprensión:
df.withColumn("first_two", f.array([f.col("letters")[i] for i in range(2)])).show()
#+---+---------+---------+
#| id| letters|first_two|
#+---+---------+---------+
#| 1|[a, b, c]| [a, b]|
#| 2|[d, e, f]| [d, e]|
#| 3|[g, h, i]| [g, h]|
#+---+---------+---------+
Para las versiones 2.4+ de pyspark también puede usar pyspark.sql.functions.slice()
:
df.withColumn("first_two",f.slice("letters",start=1,length=2)).show()
#+---+---------+---------+
#| id| letters|first_two|
#+---+---------+---------+
#| 1|[a, b, c]| [a, b]|
#| 2|[d, e, f]| [d, e]|
#| 3|[g, h, i]| [g, h]|
#+---+---------+---------+
slice
puede tener un mejor rendimiento para matrices grandes (tenga en cuenta que el índice de inicio es 1, no 0)
O mis habilidades de pyspark se han oxidado (confieso que ya no las perfecciono mucho hoy en día), o esta es una nuez difícil … La única forma en que logré hacerlo es usando declaraciones SQL:
spark.version
# u'2.3.1'
# dummy data:
from pyspark.sql import Row
x = [Row(col1="xx", col2="yy", col3="zz", col4=[123,234, 456])]
rdd = sc.parallelize(x)
df = spark.createDataFrame(rdd)
df.show()
# result:
+----+----+----+---------------+
|col1|col2|col3| col4|
+----+----+----+---------------+
| xx| yy| zz|[123, 234, 456]|
+----+----+----+---------------+
df.createOrReplaceTempView("df")
df2 = spark.sql("SELECT col1, col2, col3, (col4[0], col4[1]) as col5 FROM df")
df2.show()
# result:
+----+----+----+----------+
|col1|col2|col3| col5|
+----+----+----+----------+
| xx| yy| zz|[123, 234]|
+----+----+----+----------+
Para preguntas futuras, sería bueno seguir las pautas sugeridas sobre Cómo hacer buenos ejemplos reproducibles de Apache Spark Dataframe.