Saltar al contenido

¿Cómo contar filas duplicadas en el marco de datos de pandas?

No dudes en compartir nuestro espacio y códigos con otro, danos de tu ayuda para hacer crecer nuestra comunidad.

Solución:

Puede groupby en todas las columnas y llamar size el índice indica los valores duplicados:

In [28]:
df.groupby(df.columns.tolist(),as_index=False).size()

Out[28]:
one    three  two  
False  False  True     1
True   False  False    2
       True   True     1
dtype: int64

df.groupby(df.columns.tolist()).size().reset_index().
    rename(columns=0:'records')

   one  two  records
0    1    1        2
1    1    2        1

Si desea contar duplicados en columnas particulares:

len(df['one'])-len(df['one'].drop_duplicates())

Si desea contar duplicados en todo el marco de datos:

len(df)-len(df.drop_duplicates())

O simplemente puede usar DataFrame.duplicated(subset=None, keep=’first’):

df.duplicated(subset='one', keep='first').sum()

donde

subconjunto : etiqueta de columna o secuencia de etiquetas (por defecto, use todas las columnas)

mantenerse : ‘primero’, ‘último’, Falso, por defecto ‘primero’

  • primero : marca los duplicados como verdaderos excepto la primera aparición.
  • último : marca los duplicados como verdaderos, excepto la última aparición.
  • Falso : Marque todos los duplicados como verdaderos.

Si haces scroll puedes encontrar las notas de otros usuarios, tú de igual forma tienes la libertad de insertar el tuyo si dominas el tema.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *