Agradeceríamos tu apoyo para difundir nuestras secciones sobre las ciencias de la computación.
Ejemplo 1: valores únicos de pandas en la columna
#List unique values in the df['name'] column
df.name.unique()
Ejemplo 2: filas distintas en este DataFrame
# distinct rows in this DataFrame
df.distinct().count()# 2
Ejemplo 3: entradas únicas en pandas de columna
# Import modulesimport pandas as pd
# Set ipython's max row display
pd.set_option('display.max_row',1000)# Set iPython's max column width to 50
pd.set_option('display.max_columns',50)# Create an example dataframe
data ='name':['Jason','Molly','Tina','Jake','Amy'],'year':[2012,2012,2013,2014,2014],'reports':[4,24,31,2,3]
df = pd.DataFrame(data, index =['Cochice','Pima','Santa Cruz','Maricopa','Yuma'])
df
#List unique values in the df['name'] column
df.name.unique()
Ejemplo 4: devolver un nuevo DataFrame con filas duplicadas eliminadas
# Return a new DataFrame with duplicate rows removedfrom pyspark.sql import Row
df = sc.parallelize([
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=10, height=80)]).toDF()
df.dropDuplicates().show()# +---+------+-----+# |age|height| name|# +---+------+-----+# | 5| 80|Alice|# | 10| 80|Alice|# +---+------+-----+
df.dropDuplicates(['name','height']).show()# +---+------+-----+# |age|height| name|# +---+------+-----+# | 5| 80|Alice|# +---+------+-----+
Recuerda que puedes aclarar tu experiencia si te fue útil.
¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)