Devuelve una serie booleana que denota filas duplicadas.
Tener en cuenta ciertas columnas es opcional.
- Parámetros
-
- subconjunto : etiqueta de columna o secuencia de etiquetas, opcional
-
Solo considere ciertas columnas para identificar duplicados; de manera predeterminada, use todas las columnas.
- guardar : ‘primero’, ‘último’, falso, predeterminado ‘primero’
-
Determina qué duplicados (si los hay) marcar.
-
first
: Marcar duplicados como True
excepto por la primera aparición.
-
last
: Marcar duplicados como True
excepto por la última aparición.
-
Falso: marcar todos los duplicados como True
.
- Devoluciones
-
- Serie
-
Serie booleana para cada fila duplicada.
Ver también
Index.duplicated
-
Método equivalente sobre índice.
Series.duplicated
-
Método equivalente en Series.
Series.drop_duplicates
-
Elimine los valores duplicados de Series.
DataFrame.drop_duplicates
-
Elimina los valores duplicados de DataFrame.
Ejemplos de
Considere el conjunto de datos que contiene la clasificación de ramen.
>>> df = pd.DataFrame(...'brand':['Yum Yum','Yum Yum','Indomie','Indomie','Indomie'],...'style':['cup','cup','cup','pack','pack'],...'rating':[4,4,3.5,15,5]...)>>> df
brand style rating
0 Yum Yum cup 4.01 Yum Yum cup 4.02 Indomie cup 3.53 Indomie pack 15.04 Indomie pack 5.0
De forma predeterminada, para cada conjunto de valores duplicados, la primera aparición se establece en Falso y todas las demás en Verdadero.
>>> df.duplicated()0False1True2False3False4False
dtype:bool
Al usar ‘última’, la última aparición de cada conjunto de valores duplicados se establece en Falso y todas las demás en Verdadero.
>>> df.duplicated(keep='last')0True1False2False3False4False
dtype:bool
Configurando keep
en Falso, todos los duplicados son Verdaderos.
>>> df.duplicated(keep=False)0True1True2False3False4False
dtype:bool
Para encontrar duplicados en columnas específicas, use subset
.
>>> df.duplicated(subset=['brand'])0False1True2False3True4True
dtype:bool