Saltar al contenido

Pyspark: convertir columna a minúsculas

Por fin luego de mucho trabajar ya hallamos la solución de esta escollo que muchos los lectores de nuestro sitio web presentan. Si tienes algún dato que compartir puedes dejar tu comentario.

Solución:

Importar lower junto a col:

from pyspark.sql.functions import lower, col

Combínalos usando lower(col("bla")). En una consulta completa:

spark.table('bla').select(lower(col('bla')).alias('bla'))

que es equivalente a la consulta SQL

SELECT lower(bla) AS bla FROM bla

Para mantener las otras columnas, haga

spark.table('foo').withColumn('bar', lower(col('bar')))

No hace falta decir que este enfoque es mejor que usar un UDF porque los UDF tienen que llamar a Python (que es una operación lenta y Python en sí mismo es lento) y es más elegante que escribirlo en SQL.

Recuerda que puedes permitirte decir si te ayudó.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)


Tags : /

Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *