Saltar al contenido

Pyspark reemplaza cadenas en la columna del marco de datos de Spark

Después de tanto trabajar pudimos hallar el resultado de este atasco que muchos lectores de este espacio han tenido. Si tienes alguna información que compartir no dudes en dejar tu información.

Solución:

Para Spark 1.5 o posterior, puede usar el paquete de funciones:

from pyspark.sql.functions import *
newDf = df.withColumn('address', regexp_replace('address', 'lane', 'ln'))

Explicación rápida:

  • La función withColumn se llama para agregar (o reemplazar, si el nombre existe) una columna al marco de datos.
  • La función regexp_replace generará una nueva columna reemplazando todas las subcadenas que coincidan con el patrón.

para escala

import org.apache.spark.sql.functions.regexp_replace
import org.apache.spark.sql.functions.col
data.withColumn("addr_new", regexp_replace(col("addr_line"), "\*", ""))

Nos puedes confirmar nuestra labor mostrando un comentario y valorándolo te estamos eternamente agradecidos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada.