Saltar al contenido

los pandas sueltan duplicados según el ejemplo de código de columna

Este dilema se puede tratar de diversas formas, pero te compartimos la resolución más completa en nuestra opinión.

Ejemplo 1: Python: eliminar duplicados en una columna específica

df = df.drop_duplicates(subset=['Column1','Column2'], keep='first')

Ejemplo 2: eliminar duplicados basados ​​en dos columnas en el marco de datos

df.drop_duplicates(['A','B'],keep='last')

Ejemplo 3: soltar la primera columna de pandas duplicados

import pandas as pd 
  
# making data frame from csv file 
data = pd.read_csv("employees.csv") 
  
# sorting by first name 
data.sort_values("First Name", inplace = True) 
  
# dropping ALL duplicte values 
data.drop_duplicates(subset ="First Name",keep = False, inplace = True) 
  
# displaying data 
print(data)

Ejemplo 4: eliminar fila duplicada en df

df = df.drop_duplicates()

Ejemplo 5: eliminar columnas duplicadas marco de datos de python

df = df.loc[:,~df.columns.duplicated()]

Ejemplo 6: Devolver un nuevo DataFrame con filas duplicadas eliminadas

# Return a newDataFramewith duplicate rows removed

from pyspark.sql import Row
df = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Alice', age=5, height=80),Row(name='Alice', age=10, height=80)]).toDF()
df.dropDuplicates().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# |5|80|Alice|
# |10|80|Alice|
# +---+------+-----+

df.dropDuplicates(['name','height']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# |5|80|Alice|
# +---+------+-----+

valoraciones y reseñas

Recuerda algo, que tienes la capacidad de decir si te fue útil.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *