Genera estadísticas descriptivas.
Las estadísticas descriptivas incluyen aquellas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo NaN
valores.
Analiza series numéricas y de objetos, así como DataFrame
conjuntos de columnas de tipos de datos mixtos. La salida variará según lo que se proporcione. Consulte las notas a continuación para obtener más detalles.
- Parámetros
-
- percentiles : lista de números, opcional
-
Los percentiles que se incluirán en la salida. Todos deben estar entre 0 y 1. El valor predeterminado es [.25,.5,.75]
, que devuelve los percentiles 25, 50 y 75.
- incluir : ‘todos’, tipo lista de dtypes o Ninguno (predeterminado), opcional
-
Una lista blanca de tipos de datos para incluir en el resultado. Ignorado por Series
. Estas son las opciones:
-
‘all’: todas las columnas de la entrada se incluirán en la salida.
-
Una lista similar a dtypes: limita los resultados a los tipos de datos proporcionados. Para limitar el resultado a tipos numéricos, envíe numpy.number
. Para limitarlo a columnas de objetos, envíe el numpy.object
tipo de datos. Las cuerdas también se pueden utilizar en el estilo de select_dtypes
(p.ej df.describe(include=['O'])
). Para seleccionar columnas categóricas de pandas, use 'category'
-
Ninguno (predeterminado): el resultado incluirá todas las columnas numéricas.
- excluir : tipo lista de tipos o Ninguno (predeterminado), opcional,
-
Una lista negra de tipos de datos para omitir del resultado. Ignorado por Series
. Estas son las opciones:
-
Una lista similar a dtypes: excluye los tipos de datos proporcionados del resultado. Para excluir tipos numéricos, envíe numpy.number
. Para excluir columnas de objetos, envíe el tipo de datos numpy.object
. Las cuerdas también se pueden utilizar en el estilo de select_dtypes
(p.ej df.describe(include=['O'])
). Para excluir columnas categóricas de pandas, use 'category'
-
Ninguno (predeterminado): el resultado no excluirá nada.
- datetime_is_numeric : bool, predeterminado Falso
-
Ya sea para tratar los tipos de fecha y hora como numéricos. Esto afecta las estadísticas calculadas para la columna. Para la entrada de DataFrame, esto también controla si las columnas de fecha y hora se incluyen de forma predeterminada.
Nuevo en la versión 1.1.0.
- Devoluciones
-
- Serie o DataFrame
-
Se proporcionan estadísticas resumidas de la serie o el marco de datos.
Ver también
DataFrame.count
-
Cuente el número de observaciones nulas / no NA.
DataFrame.max
-
Máximo de los valores en el objeto.
DataFrame.min
-
Mínimo de los valores en el objeto.
DataFrame.mean
-
Media de los valores.
DataFrame.std
-
Desviación estándar de las observaciones.
DataFrame.select_dtypes
-
Subconjunto de un DataFrame que incluye / excluye columnas según su tipo d.
Notas
Para datos numéricos, el índice del resultado incluirá count
, mean
, std
, min
, max
así como más bajo, 50
y percentiles superiores. Por defecto, el percentil más bajo es 25
y el percentil superior es 75
. los 50
el percentil es el mismo que la mediana.
Para los datos del objeto (por ejemplo, cadenas o marcas de tiempo), el índice del resultado incluirá count
, unique
, top
, y freq
. los top
es el valor más común. los freq
es la frecuencia del valor más común. Las marcas de tiempo también incluyen first
y last
elementos.
Si varios valores de objeto tienen el recuento más alto, entonces el count
y top
los resultados se elegirán arbitrariamente entre los que tengan el recuento más alto.
Para tipos de datos mixtos proporcionados a través de un DataFrame
, el valor predeterminado es devolver solo un análisis de columnas numéricas. Si el marco de datos consta solo de objetos y datos categóricos sin columnas numéricas, el valor predeterminado es devolver un análisis tanto del objeto como de las columnas categóricas. Si include='all'
se proporciona como una opción, el resultado incluirá una unión de atributos de cada tipo.
los incluir y excluir Los parámetros se pueden utilizar para limitar qué columnas en un DataFrame
se analizan para la salida. Los parámetros se ignoran al analizar un Series
.
Ejemplos de
Describiendo un numérico Series
.
>>> s = pd.Series([1,2,3])>>> s.describe()
count 3.0
mean 2.0
std 1.0min1.025%1.550%2.075%2.5max3.0
dtype: float64
Describiendo un categórico Series
.
>>> s = pd.Series(['a','a','b','c'])>>> s.describe()
count 4
unique 3
top a
freq 2
dtype:object
Describir una marca de tiempo Series
.
>>> s = pd.Series([... np.datetime64("2000-01-01"),... np.datetime64("2010-01-01"),... np.datetime64("2010-01-01")...])>>> s.describe(datetime_is_numeric=True)
count 3
mean 2006-09-0108:00:00min2000-01-0100:00:0025%2004-12-3112:00:0050%2010-01-0100:00:0075%2010-01-0100:00:00max2010-01-0100:00:00
dtype:object
Describiendo un DataFrame
. De forma predeterminada, solo se devuelven campos numéricos.
>>> df = pd.DataFrame('categorical': pd.Categorical(['d','e','f']),...'numeric':[1,2,3],...'object':['a','b','c']...)>>> df.describe()
numeric
count 3.0
mean 2.0
std 1.0min1.025%1.550%2.075%2.5max3.0
Describiendo todas las columnas de un DataFrame
independientemente del tipo de datos.
>>> df.describe(include='all')
categorical numeric object
count 33.03
unique 3 NaN 3
top f NaN a
freq 1 NaN 1
mean NaN 2.0 NaN
std NaN 1.0 NaN
min NaN 1.0 NaN
25% NaN 1.5 NaN
50% NaN 2.0 NaN
75% NaN 2.5 NaN
max NaN 3.0 NaN
Describir una columna de un DataFrame
accediendo a él como un atributo.
>>> df.numeric.describe()
count 3.0
mean 2.0
std 1.0min1.025%1.550%2.075%2.5max3.0
Name: numeric, dtype: float64
Incluir solo columnas numéricas en un DataFrame
descripción.
>>> df.describe(include=[np.number])
numeric
count 3.0
mean 2.0
std 1.0min1.025%1.550%2.075%2.5max3.0
Incluyendo solo columnas de cadena en un DataFrame
descripción.
>>> df.describe(include=[object])object
count 3
unique 3
top a
freq 1
Incluyendo solo columnas categóricas de un DataFrame
descripción.
>>> df.describe(include=['category'])
categorical
count 3
unique 3
top d
freq 1
Excluir columnas numéricas de una DataFrame
descripción.
>>> df.describe(exclude=[np.number])
categorical object
count 33
unique 33
top f a
freq 11
Excluir columnas de objetos de una DataFrame
descripción.
>>> df.describe(exclude=[object])
categorical numeric
count 33.0
unique 3 NaN
top f NaN
freq 1 NaN
mean NaN 2.0
std NaN 1.0min NaN 1.025% NaN 1.550% NaN 2.075% NaN 2.5max NaN 3.0