Por fin luego de mucho trabajar ya hallamos la solución de esta escollo que muchos los lectores de nuestro sitio web presentan. Si tienes algún dato que compartir puedes dejar tu comentario.
Solución:
Importar lower
junto a col
:
from pyspark.sql.functions import lower, col
Combínalos usando lower(col("bla"))
. En una consulta completa:
spark.table('bla').select(lower(col('bla')).alias('bla'))
que es equivalente a la consulta SQL
SELECT lower(bla) AS bla FROM bla
Para mantener las otras columnas, haga
spark.table('foo').withColumn('bar', lower(col('bar')))
No hace falta decir que este enfoque es mejor que usar un UDF porque los UDF tienen que llamar a Python (que es una operación lenta y Python en sí mismo es lento) y es más elegante que escribirlo en SQL.
Recuerda que puedes permitirte decir si te ayudó.
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)