Después de tanto trabajar pudimos hallar el resultado de este atasco que muchos lectores de este espacio han tenido. Si tienes alguna información que compartir no dudes en dejar tu información.
Solución:
Para Spark 1.5 o posterior, puede usar el paquete de funciones:
from pyspark.sql.functions import *
newDf = df.withColumn('address', regexp_replace('address', 'lane', 'ln'))
Explicación rápida:
- La función
withColumn
se llama para agregar (o reemplazar, si el nombre existe) una columna al marco de datos. - La función
regexp_replace
generará una nueva columna reemplazando todas las subcadenas que coincidan con el patrón.
para escala
import org.apache.spark.sql.functions.regexp_replace
import org.apache.spark.sql.functions.col
data.withColumn("addr_new", regexp_replace(col("addr_line"), "\*", ""))
Nos puedes confirmar nuestra labor mostrando un comentario y valorándolo te estamos eternamente agradecidos.
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)