Solución:
-
Salida de regresión lineal como probabilidades
Es tentador usar el resultado de la regresión lineal como probabilidades, pero es un error porque el resultado puede ser negativo y mayor que 1, mientras que la probabilidad no. Como la regresión en realidad podría producir probabilidades que podrían ser menores que 0, o incluso mayores que 1, se introdujo la regresión logística.
Fuente: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
-
Salir
En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles.
En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.
-
La variable dependiente
La regresión logística se utiliza cuando la variable de respuesta es de naturaleza categórica. Por ejemplo, sí / no, verdadero / falso, rojo / verde / azul, 1º / 2º / 3º / 4º, etc.
La regresión lineal se usa cuando su variable de respuesta es continua. Por ejemplo, peso, altura, número de horas, etc.
-
Ecuación
La regresión lineal da una ecuación que es de la forma Y = mX + C, significa ecuación con grado 1.
Sin embargo, la regresión logística da una ecuación que tiene la forma Y = eX + e-X
-
Interpretación de coeficientes
En la regresión lineal, la interpretación del coeficiente de las variables independientes es bastante sencilla (es decir, manteniendo todas las demás variables constantes, con un aumento unitario en esta variable, se espera que la variable dependiente aumente / disminuya en xxx).
Sin embargo, en la regresión logística, depende de la familia (binomial, Poisson, etc.) y del vínculo (log, logit, inverso-log, etc.) que utilice, la interpretación es diferente.
-
Técnica de minimización de errores
Usos de regresión lineal mínimos cuadrados ordinarios método para minimizar los errores y llegar al mejor ajuste posible, mientras que la regresión logística utiliza máxima verosimilitud método para llegar a la solución.
La regresión lineal generalmente se resuelve minimizando el error de mínimos cuadrados del modelo a los datos, por lo tanto, los errores grandes se penalizan cuadráticamente.
La regresión logística es todo lo contrario. El uso de la función de pérdida logística hace que los errores grandes sean penalizados a una constante asintóticamente.
Considere la regresión lineal en resultados categóricos {0, 1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38, cuando la verdad es 1, no ha perdido nada. La regresión lineal intentaría reducir ese 38, la logística no lo haría (tanto)2.
En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles. En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.
Por ejemplo, si X contiene el área en pies cuadrados de las casas e Y contiene el precio de venta correspondiente de esas casas, puede usar la regresión lineal para predecir el precio de venta en función del tamaño de la casa. Si bien el posible precio de venta puede no ser alguna, hay tantos valores posibles que se elegiría un modelo de regresión lineal.
Si, en cambio, quisiera predecir, según el tamaño, si una casa se vendería por más de $ 200K, usaría la regresión logística. Los posibles resultados son Sí, la casa se venderá por más de $ 200K, o No, la casa no.
Solo para agregar las respuestas anteriores.
Regresión lineal
Tiene la intención de resolver el problema de predecir / estimar el valor de salida para un elemento X dado (digamos f (x)). El resultado de la predicción es una función continua donde los valores pueden ser positivos o negativos. En este caso, normalmente tiene un conjunto de datos de entrada con muchos ejemplos y el valor de salida de cada uno de ellos. El objetivo es poder encajar un modelo a este conjunto de datos para que pueda predecir esa salida para nuevos elementos diferentes / nunca vistos. A continuación se muestra el ejemplo clásico de ajustar una línea a un conjunto de puntos, pero en general, la regresión lineal podría usarse para ajustar modelos más complejos (usando grados polinomiales más altos):
Resolviendo el problema
La regresión lineal se puede resolver de dos formas diferentes:
- Ecuación normal (forma directa de resolver el problema)
- Descenso de gradiente (enfoque iterativo)
Regresión logística
Está destinado a resolver clasificación problemas donde dado un elemento tienes que clasificar el mismo en N categorías. Ejemplos típicos son, por ejemplo, recibir un correo para clasificarlo como spam o no, o buscar un vehículo a qué categoría pertenece (coche, camión, furgoneta, etc.). Básicamente, la salida es un conjunto finito de valores discretos.
Resolviendo el problema
Los problemas de regresión logística solo se pueden resolver mediante el descenso de gradiente. La formulación en general es muy similar a la regresión lineal, la única diferencia es el uso de diferentes funciones de hipótesis. En regresión lineal, la hipótesis tiene la forma:
h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
donde theta es el modelo que estamos tratando de encajar y [1, x_1, x_2, ..] es el vector de entrada. En la regresión logística, la función de hipótesis es diferente:
g(x) = 1 / (1 + e^-x)
Esta función tiene una propiedad agradable, básicamente asigna cualquier valor al rango [0,1] lo cual es apropiado para manejar propababilidades durante la clasificación. Por ejemplo, en el caso de una clasificación binaria, g (X) podría interpretarse como la probabilidad de pertenecer a la clase positiva. En este caso, normalmente tiene diferentes clases que se separan con un límite de decisión que básicamente un curva que decide la separación entre las diferentes clases. A continuación se muestra un ejemplo de conjunto de datos separado en dos clases.