Saltar al contenido

¿Por qué trabajar con cuadrados de error en el análisis de regresión?

Solución:

Desde un punto de vista bayesiano, esto equivale a suponer que sus datos son generados por una línea más ruido gaussiano y encontrar la línea de máxima verosimilitud basada en esa suposición. Usar los valores absolutos significa asumir que su ruido tiene un pdf proporcional a $ e ^ {- | x |} $ que es sustancialmente menos natural que asumir ruido gaussiano (por ejemplo, el ruido gaussiano cae fuera del teorema del límite central).

El uso de los errores cuadrados también hace que la regresión sea extremadamente fácil de calcular, lo que probablemente sea un factor práctico importante. La mayoría de las otras funciones del error resultarían en algo mucho más molesto de calcular.

Eleva al cuadrado los términos de error debido al teorema de Pitágoras x ^ 2 + y ^ 2 = z ^ 2.

Considere solo el caso bidimensional.

La xey corresponden a términos de error en cada dimensión ortogonal. Pero esa hipotenusa z es la distancia que realmente desea minimizar.

Ahora, minimizar la suma de los cuadrados de xey también minimizará la raíz cuadrada de la suma de los cuadrados. Entonces no es necesario sacar la raíz cuadrada final.

Con un poco de pensamiento, verá que esto funciona a medida que agrega más términos de error x, y a la mezcla. Minimizar

x1 ^ 2 + y1 ^ 2 + … + xN ^ 2 + yN ^ 2

tiene el efecto de minimizar también la sobre suma de las distancias (todas esas pequeñas hipotenusas)

raíz cuadrada (x1 ^ 2 + y1 ^ 2) + … + raíz cuadrada (xN ^ 2 + yN ^ 2) = z1 + … + zN

pero es mucho más sencillo de calcular.

¿Tener sentido?

Ok, entonces, ¿qué pasaría si tomara valores absolutos y minimizara

| x1 | + | y1 | + … + | xN | + | yN | ?

En lugar de minimizar la suma de las distancias, sesgaría el ajuste resultante hacia una pendiente de 1 o -1 y alejándose de las pendientes de las líneas cercanas a 0 o al infinito. Por supuesto que puede hacer eso, pero su ajuste resultante será succionado hacia una línea con una pendiente de más o menos 1 y lejos de la solución que minimiza esas distancias pitagóricas.

Básicamente, puede hacer la misma pregunta en la configuración mucho más simple de encontrar el “mejor” promedio de valores $ x_1, ldots, x_n $, donde aquí me refiero promedio en el sentido general de encontrar un valor único para representarlos, como la media (aritmética), la media geométrica, la mediana o $ l_p $ -mean (no estoy seguro si ese es el nombre correcto).

Para los datos que realmente provienen de una distribución normal, la media será el estimador más poderoso de la media verdadera. Sin embargo, si la distribución es de cola larga (o tiene valores extremos), la mediana será más robusta.

También puede usar la norma $ l_p $ y encontrar la $ l_p $ -mean, $ u $, que minimiza $ sum_i | x_i-u | ^ p $ para cualquier $ p ge1 $. (Para $ p <1 $, esto ya no necesita ser único.) Para $ p = 2 $ tenemos la distancia al cuadrado tradicional, mientras que para $ p = 1 $ obtenemos la mediana (casi). Una vez encontré que $ p = 1.5 $ se comportaba bien en términos de potencia y robustez.

Entonces, cambiar de la regresión de mínimos cuadrados ($ l_2 $ -norm) a usar la distancia absoluta ($ l_1 $ -norm) corresponde a cambiar de la media a la mediana. Cuál es mejor depende de los datos y también del contexto del análisis: lo que realmente estás buscando.

La media tiene la ventaja de que es un estimador insesgado de la media verdadera sin importar cuál sea la distribución subyacente, pero por lo general la precisión es más importante que el insesgado.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)


Tags : /

Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *