Saltar al contenido

¿Cuál es la diferencia entre “expectativa”, “varianza” para los libros de texto de estadística y de probabilidad?

Después de de una prolongada compilación de datos dimos con la solución esta preocupación que pueden tener muchos de nuestros lectores. Te ofrecemos la solución y nuestro deseo es serte de mucha apoyo.

Solución:

Hace una pregunta muy perspicaz que desearía que se enfatizara más a menudo.

EDITAR: Parece que está buscando fuentes confiables para justificar lo anterior. Se han proporcionado fuentes y citas relevantes.

Así es como explicaría esto:

  • Probablemente, el énfasis está en los modelos de población. Tiene suposiciones incorporadas para variables aleatorias y puede hacer cosas como decir que “en esta población que sigue dicha distribución, la probabilidad de este valor viene dada por la función de masa de probabilidad”.
  • En estadística, el énfasis está en los modelos de muestreo. Con la mayoría de los datos del mundo real, lo hace no tener acceso al proceso de generación de datos regido por el modelo poblacional. La probabilidad proporciona herramientas para realizar conjeturas sobre cuál podría ser el proceso de generación de datos. Pero siempre hay algo de incertidumbre detrás de eso. Por lo tanto, intentamos estimar las características de la población dada los datos.

De Wackerly et al. Estadística matemática con aplicaciones, 7a edición, capítulo 1.6:

El objetivo de la estadística es hacer una inferencia sobre una población a partir de la información contenida en una muestra tomada de esa población …

Un preludio necesario para hacer inferencias sobre una población es la capacidad de describir un conjunto de números …

El mecanismo para hacer inferencias lo proporciona la teoría de la probabilidad. El probabilista razona desde una población conocida hasta el resultado de un solo experimento, la muestra. Por el contrario, el estadístico utiliza la teoría de la probabilidad para calcular la probabilidad de una muestra observada e inferirla a partir de las características de una población desconocida. Por tanto, la probabilidad es la base de la teoría de la estadística.

De Shao’s Estadística matemática, 2a edición, sección 2.1.1:

En inferencia estadística … el conjunto de datos se ve como una realización u observación de un elemento aleatorio definido en un espacio de probabilidad $ ( Omega, mathcal F, P) $ relacionado con el experimento aleatorio. La medida de probabilidad $ P $ se llama la población. El conjunto de datos o elemento aleatorio que produce los datos se denomina muestra de $ P $… En un problema estadístico, la población $ P $ es al menos parcialmente desconocido y nos gustaría deducir algunas propiedades de $ P $ basado en la muestra disponible.

Entonces, las fórmulas de probabilidad de la media y la varianza suponga que tiene suficiente información sobre la población para calcularlos.

Las fórmulas estadísticas para la media y la varianza son intenta estimar la media y la varianza de la población, dada una muestra de datos. Puede estimar la media y la varianza de varias formas, pero las fórmulas que ha proporcionado son algunas formas estándar de estimar la media y la varianza de la población.

Ahora, una pregunta lógica es: por qué ¿Elegimos esas fórmulas para estimar la media y la varianza de la población?

Para la fórmula media que tiene allí, se puede observar que si asume que su $ n $ las observaciones se pueden representar como valores observados de variables aleatorias independientes e idénticamente distribuidas $ X_1, puntos, X_n $ con media $ mu $,
$$ mathbb E left[dfrac1nsum_i=1^nX_i right] = mu $$
que es la media de la población. Decimos entonces que $ dfrac 1 n sum_ i = 1 ^ n X_i $ es un “estimador insesgado” de la media poblacional.

De Wackerly et al. Estadística matemática con aplicaciones, 7a edición, capítulo 7.1:

Por ejemplo, supongamos que queremos estimar la media de una población $ mu $. Si obtenemos una muestra aleatoria de $ n $ observaciones $ y_1, y_2, puntos, y_n $, parece razonable estimar $ mu $ con la media muestral $$ bar y = dfrac 1 n sum_ i = 1 ^ n y_i $$

La bondad de esta estimación depende del comportamiento de las variables aleatorias $ Y_1, Y_2, puntos, Y_n $ y el efecto que esto tiene en $ bar Y = (1 / n) sum_ i = 1 ^ n Y_i $.

Nota. En estadística, se acostumbra utilizar minúsculas $ x_i $ representar valores observados de variables aleatorias; luego llamamos $ frac 1 n sum_ i = 1 ^ n x_i $ una “estimación” de la media de la población (observe la diferencia entre “estimador” y “estimación”).

Para el estimador de varianza, se acostumbra utilizar $ n-1 $ en el denominador, porque si asumimos que las variables aleatorias tienen varianza finita $ sigma ^ 2 $, se puede demostrar que
$$ mathbb E left[dfrac1n-1sum_i=1^nleft(X_i – dfrac1nsum_j=1^nX_j right)^2 right] = sigma ^ 2 text . $$
Por lo tanto $ dfrac 1 n-1 sum_ i = 1 ^ n left (X_i – dfrac 1 n sum_ j = 1 ^ n X_j right) ^ 2 $ es un estimador insesgado de $ sigma ^ 2 $, la varianza de la población.

También vale la pena señalar que la fórmula que tiene allí tiene un valor esperado
$$ dfrac n-1 n sigma ^ 2 $$
y $$ dfrac n-1 n <1 $$
por lo que, en promedio, tenderá a subestimar la varianza de la población.

De Wackerly et al. Estadística matemática con aplicaciones, 7a edición, capítulo 7.2:

Por ejemplo, suponga que deseamos hacer una inferencia sobre la varianza de la población $ sigma ^ 2 $ basado en una muestra aleatoria $ Y_1, Y_2, puntos, Y_n $ de una población normal … un buen estimador de $ sigma ^ 2 $ es la varianza de la muestra
$$ S ^ 2 = dfrac 1 n-1 sum_ i = 1 ^ n (Y_i – bar Y) ^ 2 text . $$

Los estimadores de la media y la varianza anteriores son ejemplos de estimadores puntuales. De Casella y Berger’s Inferencia estadística, Capítulo 7.1:

El fundamento de la estimación puntual es bastante simple. Cuando el muestreo es de una población descrita por un pdf o pmf $ f (x mid theta) $, conocimiento de $ theta $ proporciona conocimiento de toda la población. Por tanto, es natural buscar un método para encontrar un buen estimador del punto $ theta $, es decir, un buen estimador puntual. También es el caso de que el parámetro $ theta $ tiene una interpretación física significativa (como en el caso de una población) por lo que existe un interés directo en obtener una buena estimación puntual de $ theta $. También puede darse el caso de que alguna función de $ theta $, decir $ tau ( theta) $ es de interés.

Por supuesto, hay mucho más que estoy ignorando por ahora (y uno podría escribir un libro de texto completo, honestamente, sobre este tema), pero espero que esto aclare las cosas.

Nota. Sé que muchos libros de texto utilizan los términos “media muestral” y “varianza muestral” para describir los estimadores anteriores. Si bien “media muestral” tiende a ser una terminología muy estándar, no estoy de acuerdo con el uso de “varianza muestral” para describir un estimador de la varianza; algún uso $ n – 1 $ en el denominador, y algunos usan $ n $ en el denominador. Además, como mencioné anteriormente, hay una multitud de formas en las que se puede estimar la media y la varianza; Personalmente, creo que el uso de la palabra “muestra” para describir tales estimadores hace que parezca que no existen otros estimadores y, por lo tanto, es engañoso en ese sentido.


En lenguaje común

Esta respuesta se basa principalmente en mi experiencia práctica en estadística y análisis de datos, habiendo trabajado en el campo durante aproximadamente 6 años como profesional. (Por otro lado, encuentro que una deficiencia seria con los libros de análisis de datos y estadísticas es que brindan teoría matemática y cómo abordar los problemas en la práctica).

Usted pregunta:

¿Existe algún lenguaje coherente para distinguir estas dos terminologías de media y varianza aparentemente diferentes? Por ejemplo, si mi cajero me pregunta sobre el “peso medio” de dos elementos, ¿le pregunto por la distribución probabilística de la variable aleatoria cuya realización son los pesos de estos dos elementos (def 1), o simplemente sumar el valor y dividir (def 2)? ¿Cómo sé de qué medio está hablando la persona?

En la mayoría de los casos, solo desea ceñirse a las definiciones estadísticas. La mayoría de la gente no piensa en las estadísticas como un intento de estimar cantidades relevantes para una población y, por lo tanto, no piensa “Estoy tratando de estimar una cantidad de población usando una estimación basada en datos”. En tales situaciones, las personas solo buscan resúmenes de los datos que le han proporcionado, conocidos como estadísticas descriptivas.

Toda la idea de estimar cantidades relevantes para una población utilizando una muestra se conoce como estadística inferencial. Si bien (desde mi perspectiva) la mayoría de las estadísticas tienden a centrarse en la inferencia estadística, en la práctica, la mayoría de las personas, especialmente si no han tenido una formación estadística sustancial, no abordan las estadísticas con esta mentalidad. La mayoría de las personas con las que he trabajado piensan que las “estadísticas” son solo estadísticas descriptivas.

De Shao Estadística matemática, Segunda edición, el ejemplo 2.1 habla un poco sobre esta diferencia:

En el análisis de datos descriptivos, se pueden calcular algunas medidas de resumen, por ejemplo, la media de la muestra … y la varianza de la muestra … Sin embargo, ¿cuál es la relación entre $ bar x $ y $ theta $ [a population quantity]? ¿Están cerca (si no son iguales) en algún sentido? La varianza de la muestra $ s ^ 2 $ es claramente un promedio de desviaciones cuadradas de $ x_i $es de su media. Pero, ¿qué tipo de información $ s ^ 2 $ proporcionar? … Estas preguntas no pueden responderse en un análisis descriptivo de datos.


Otras observaciones sobre la media muestral y las fórmulas de varianza muestral

Dejar $ bar X _n $ y $ S ^ 2_n $ denotar la media muestral y las fórmulas de varianza muestral proporcionadas anteriormente. Las siguientes son propiedades de estos estimadores:

  • Son imparcial para $ mu $ y $ sigma ^ 2 $, como se explicó anteriormente. Este es un ejercicio de probabilidad relativamente simple.
  • Son consistentes para $ mu $ y $ sigma ^ 2 $. Como conoce la teoría de la medida, suponga que todas las variables aleatorias se definen en un espacio de probabilidad $ ( Omega, mathcal F, P) $. Resulta que $ bar X _n overset P to mu $ y y $ S ^ 2_n overset P to sigma ^ 2 $, dónde $ overset P to $ denota convergencia en probabilidad, también conocida como convergencia con respecto a la medida $ P $. Consulte https://math.stackexchange.com/a/1655827/81560 para conocer la varianza de la muestra (observe que el estimador con el $ n $ en el denominador se usa aquí; simplemente multiplica por $ dfrac n-1 n $ y aplicar un resultado de Slutsky) y Demostrar que una media muestral converge en probabilidad a la media verdadera de la media muestral. Como resultado más sólido, la convergencia es casi segura con respecto a $ P $ en ambos casos (la varianza de la muestra convergerá casi con seguridad).
  • Si uno asume $ X_1, puntos, X_n $ son independientes e idénticamente distribuidos según una distribución normal con media $ mu $ y varianza $ sigma ^ 2 $, uno tiene eso $ dfrac sqrt n ( bar X _n – mu) sqrt S_n ^ 2 $ sigue un $ t $-distribución con $ n-1 $ grados de libertad, que converge en distribución a una variable aleatoria normalmente distribuida con media $ 0 $ y varianza $ 1 $. Ésta es una modificación del teorema del límite central.
  • Si uno asume $ X_1, puntos, X_n $ son independientes e idénticamente distribuidos según una distribución normal con media $ mu $ y varianza $ sigma ^ 2 $, $ bar X _n $ y $ S ^ 2_n $ son estimadores insesgados de varianza mínima uniforme (UMVUE) para $ mu $ y $ sigma ^ 2 $ respectivamente. También se sigue que $ bar X _n $ y $ S ^ 2_n $ son independientes, a través – como lo menciona Michael Hardy – mostrando que $ text Cov ( bar X _n, X_i – bar X _n) = 0 $ para cada $ i = 1, puntos, n $, o como se puede aprender de cursos de inferencia estadística más avanzados, una aplicación del teorema de Basu (ver, por ejemplo, Casella y Berger Inferencia estadística).

Las primeras definiciones que proporcionó son correctas y estándar, y los estadísticos y científicos de datos estarán de acuerdo con esto. (Estas definiciones se dan en los libros de texto de estadística). El segundo conjunto de cantidades que describió se llama “media muestral” y “varianza muestral”, no media y varianza.

Dada una muestra aleatoria de una variable aleatoria $ X $, la media muestral y la varianza muestral son formas naturales de estimar el valor esperado y la varianza de $ X $.

Otras respuestas, particularmente la del clarinetista, brindan excelentes resúmenes del lado más importante de la respuesta. Dada una variable aleatoria, podemos muestrearla y usar la media muestral (definida en el sentido estadístico) para estimar la media real de la variable aleatoria (definida en el sentido de la teoría de la probabilidad), y de manera similar para la varianza, etc.

Pero la conexión en la otra dirección no parece haber sido mencionada todavía. Esto no es tan importante, pero es mucho más sencillo y vale la pena señalarlo. Dada una muestra, es decir, un conjunto múltiple finito de valores $ x_i _ i in I $, podemos “considerar esto como una distribución”, es decir, tomar una variable aleatoria $ X $, con valor $ x_i $ por $ i $ distribuido uniformemente sobre $ I $. Entonces la media, varianza, etc. de $ X $ (en el sentido de la teoría de la probabilidad) será precisamente la media, la varianza, etc. del multiconjunto original (definido en el sentido estadístico).

Comentarios y puntuaciones

Al final de la página puedes encontrar las referencias de otros programadores, tú igualmente tienes la habilidad dejar el tuyo si dominas el tema.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *