Saltar al contenido

Suposición de un término de error aleatorio en una regresión

Nuestro grupo de especialistas despúes de algunos días de trabajo y de recopilar de información, hallamos la respuesta, nuestro deseo es que te sea útil para tu proyecto.

Solución:

Esta es la idea general: alguien que tenga mejor experiencia que yo en estadística probablemente podría dar una mejor explicación. Así que tienes este modelo de regresión lineal: $$Y = alpha + beta X + epsilon $$ donde $epsilon$ sigue una distribución normal con media $0$.

¿Qué significa exactamente aleatorio? Mi experiencia en estadística es de muy bajo nivel, pero entiendo que una variable aleatoria se define como un mapeo de un espacio de muestra a los números reales. Esta definición tiene sentido, pero la suposición de una media cero es en lo que me tropecé. ¿Cómo podemos asumir este hecho?

Personalmente, siempre he tomado la idea de que $epsilon$ sigue una distribución normal con media $0$ como una axioma de clases para el modelo de regresión lineal. Tengo entendido que es solo algo bonito nos gustaría que el modelo de regresión lineal tuviera y se presta bien a ciertas propiedades. Recuerda:

Esencialmente, todos los modelos son incorrectos, pero algunos son útiles.

que se atribuye a George EP Box.

¿Por qué querríamos tal axioma? Bueno… en promedio, sería bueno tener cero errores.

En mi opinión honesta (esto se basa en la poca probabilidad teórica de medida que he estudiado), sería mejor abordar esta idea de “aleatoriedad” de manera intuitiva, como lo haría en un curso de probabilidad de pregrado.

La idea sobre todo lo que es aleatorio es que nunca sabrás el valor de eso. Entonces, en una clase de probabilidad de pregrado, lo que hace es asignar probabilidades a los valores que puede tomar su calidad de interés creando un modelo probabilístico. Tu modelo, el 99% de las veces, no será perfecto, pero eso no impide que nadie lo intente.

La distribución normal con media 0 es solo un ejemplo de un modelo probabilístico que los estadísticos creen que es un modelo adecuado para el término de error. No es perfecto, pero es adecuado para la mayoría de los propósitos. Trabajé con un profesor cuyo enfoque es asumir un término de error sesgado-normal, lo que complica las cosas, pero por lo general es más realista, ya que, en realidad, no todo parece una curva de campana.

Mis dos centavos. Espero haber ayudado en algo.

Básicamente, los errores representan todo lo que el modelo no tiene en cuenta. ¿Y por qué es eso? Porque sería extremadamente improbable que un modelo predijera perfectamente una variable, ya que es imposible controlar todas las condiciones posibles que pueden interferir con la variable de respuesta. Los errores también pueden incluir imprecisiones de lectura o medición. Considerando la línea de regresión de mejor ajuste, los errores se basan en la distancia de cada punto a esa línea.

El Teorema del Límite Central está detrás de la suposición de que los errores siguen una distribución normal. Establece que la distribución de la suma de un gran número de variables aleatorias tenderá hacia una distribución normal. Y de hecho, en el mundo real, la mayoría de los errores observables parecen estar distribuidos de esa manera; lo que nos ayuda a extrapolar a los errores no observables.

Otra suposición que se hace es que cada punto de datos tiene su propio error asociado independiente, es decir, los errores son independientes entre sí, lo que nos ayuda a suponer que ocurren al azar.

Y debido a que los errores ocurren al azar, se espera que cada punto de datos tenga la misma probabilidad de aparecer por encima o por debajo de la línea de mejor ajuste creada por la regresión (valores de error positivos para los puntos de datos con un valor más alto que el predicho por la línea, y valores de error negativos para los puntos de datos con un valor más pequeño predicho por la línea), lo que significa que si suma todos los errores, el resultado será un valor muy cercano a cero.

Espero haber ayudado.

La suposición de media 0 es una normalización que debe realizarse porque ya tiene un término constante en la regresión. Se relaciona con el problema de la identificación: que usted, como investigador, no puede distinguir la diferencia entre el término constante en la regresión y la media del término de error.

Prueba: supongamos que $epsilon$ no es la media 0

Sea $barepsilon$ la media de $epsilon$. Entonces puedo volver a escribir su modelo como

$Y = (alpha + barepsilon) + beta X + (epsilon – barepsilon)$.

sea ​​$tildealpha = alpha + barepsilon $ y $tildeepsilon = alpha + barepsilon$

–>$Y = tildealpha+ beta X + tildeepsilon $.

Este modelo es idéntico al suyo excepto que ahora tiene un término de error de media cero y la nueva constante combina la constante anterior y la media del término de error original.

Reseñas y calificaciones del tutorial

Si haces scroll puedes encontrar las referencias de otros sys admins, tú asimismo tienes la habilidad insertar el tuyo si dominas el tema.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *