Este dilema se puede tratar de diversas formas, pero te compartimos la resolución más completa en nuestra opinión.
Ejemplo 1: Python: eliminar duplicados en una columna específica
df = df.drop_duplicates(subset=['Column1','Column2'], keep='first')
Ejemplo 2: eliminar duplicados basados en dos columnas en el marco de datos
df.drop_duplicates(['A','B'],keep='last')
Ejemplo 3: soltar la primera columna de pandas duplicados
import pandas as pd
# making data frame from csv file
data = pd.read_csv("employees.csv")
# sorting by first name
data.sort_values("First Name", inplace = True)
# dropping ALL duplicte values
data.drop_duplicates(subset ="First Name",keep = False, inplace = True)
# displaying data
print(data)
Ejemplo 4: eliminar fila duplicada en df
df = df.drop_duplicates()
Ejemplo 5: eliminar columnas duplicadas marco de datos de python
df = df.loc[:,~df.columns.duplicated()]
Ejemplo 6: Devolver un nuevo DataFrame con filas duplicadas eliminadas
# Return a newDataFramewith duplicate rows removed
from pyspark.sql import Row
df = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Alice', age=5, height=80),Row(name='Alice', age=10, height=80)]).toDF()
df.dropDuplicates().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# |5|80|Alice|
# |10|80|Alice|
# +---+------+-----+
df.dropDuplicates(['name','height']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# |5|80|Alice|
# +---+------+-----+
valoraciones y reseñas
Recuerda algo, que tienes la capacidad de decir si te fue útil.
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)