▷crear una columna de subcadena en el marco de datos de Spark ✔️ Foro Ayuda 【 2024 】

Solución:

Dicha declaración se puede utilizar

import org.apache.spark.sql.functions._

dataFrame.select(col("a"), substring_index(col("a"), ",", 1).as("b"))

Suponga que tiene el siguiente marco de datos:

import spark.implicits._
import org.apache.spark.sql.functions._

var df = sc.parallelize(Seq(("foobar", "foo"))).toDF("a", "b")

+------+---+
|     a|  b|
+------+---+
|foobar|foo|
+------+---+

Puede crear un subconjunto de una nueva columna de la primera columna de la siguiente manera:

df = df.select(col("*"), substring(col("a"), 4, 6).as("c"))

+------+---+---+
|     a|  b|  c|
+------+---+---+
|foobar|foo|bar|
+------+---+---+

Usarías el withColumn función

import org.apache.spark.sql.functions.{ udf, col }
def substringFn(str: String) = your substring code
val substring = udf(substringFn _)
dataframe.withColumn("b", substring(col("a"))

¡Haz clic para puntuar esta entrada!

(Votos: 0 Promedio: 0)

crear una columna de subcadena en el marco de datos de Spark

Solución:

Utiliza Nuestro Buscador

Preguntas Relacionadas: