Saltar al contenido

Filtro de marco de datos de Spark

Solución:

Esto también funciona. Conciso y muy similar a SQL.

df.filter("c2 not like 'MSL%' and c2 not like 'HCP%'").show
+---+-------+
| c1|     c2|
+---+-------+
|  1|Emailab|
|  2|Phoneab|
|  3|  Faxab|
|  4|   Mail|
|  5|  Other|
+---+-------+

df.filter(not(
    substring(col("c2"), 0, 3).isin("MSL", "HCP"))
    )

Usé a continuación para filtrar filas del marco de datos y esto funcionó para mí.

val spark = new org.apache.spark.sql.SQLContext(sc)    
val data = spark.read.format("csv").
          option("header", "true").
          option("delimiter", "|").
          option("inferSchema", "true").
          load("D:\test.csv")   


import  spark.implicits._
val filter=data.filter($"dept" === "IT" )

O

val filter=data.filter($"dept" =!= "IT" )
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *