Saltar al contenido

Diferencia entre escalador estándar y MinMaxScaler

Agradeceríamos tu ayuda para extender nuestros ensayos sobre las ciencias informáticas.

Solución:

MinMaxScaler(feature_range = (0, 1)) transformará cada valor en la columna proporcionalmente dentro del rango [0,1]. Úselo como la primera opción del escalador para transformar una característica, ya que conservará la forma del conjunto de datos (sin distorsión).

StandardScaler() transformará cada valor de la columna en un rango de media 0 y desviación estándar 1, es decir, cada valor se normalizará restando la media y dividiendo por la desviación estándar. Utilice StandardScaler si sabe que la distribución de datos es normal.

Si hay valores atípicos, utilice RobustScaler(). Alternativamente, puede eliminar los valores atípicos y usar cualquiera de los 2 escaladores anteriores (la elección depende de si los datos se distribuyen normalmente)

Nota adicional: si se usa el escalador antes de train_test_split, se producirá una fuga de datos. Usa escalador después de train_test_split

Desde el sitio de ScikitLearn:

StandardScaler elimina la media y escala los datos a la varianza unitaria. Sin embargo, los valores atípicos tienen una influencia al calcular la media empírica y la desviación estándar que reducen el rango de los valores de las características, como se muestra en la figura de la izquierda a continuación. Tenga en cuenta en particular que debido a que los valores atípicos en cada característica tienen diferentes magnitudes, la dispersión de los datos transformados en cada característica es muy diferente: la mayoría de los datos se encuentran en el [-2, 4] rango para la característica de ingreso medio transformado mientras que los mismos datos se comprimen en el más pequeño [-0.2, 0.2]
rango para el número transformado de hogares.

Por lo tanto, StandardScaler no puede garantizar escalas de características equilibradas en presencia de valores atípicos.

MinMaxScaler cambia la escala del conjunto de datos de modo que todos los valores de las características estén en el rango [0, 1] como se muestra en el panel derecho a continuación. Sin embargo, esta escala comprime todos los valores internos en el rango estrecho [0, 0.005] para el número transformado de hogares.

Muchos algoritmos de aprendizaje automático funcionan mejor cuando las variables de entrada numéricas se escalan a un rango estándar. Escalar los datos significa que ayuda a Normalizar los datos dentro de un rango particular.

Cuando se usa MinMaxScaler, también se conoce como Normalización y transforma todos los valores en el rango entre (0 a 1) la fórmula es x = [(value – min)/(Max- Min)]

StandardScaler pertenece a la estandarización y su valor oscila entre (-3 a +3) la fórmula es z = [(x – x.mean)/Std_deviation]

Valoraciones y comentarios

No se te olvide recomendar este tutorial si te ayudó.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *