Investigamos por diferentes foros y de esta forma traerte la solución para tu problema, si continúas con dificultades déjanos tu duda y te contestamos porque estamos para ayudarte.
Solución:
Tenga en cuenta que los resultados pueden no ser necesariamente tan diferentes. Es posible que simplemente necesite diferentes hiperparámetros para que las dos opciones proporcionen resultados similares.
Lo ideal es probar qué funciona mejor para tu problema. Si no puede pagar esto por alguna razón, la mayoría de los algoritmos probablemente se beneficiarán más de la estandarización que de la normalización.
Vea aquí algunos ejemplos de cuándo se debe preferir uno sobre el otro:
Por ejemplo, en los análisis de agrupamiento, la estandarización puede ser especialmente crucial para comparar similitudes entre características basadas en ciertas medidas de distancia. Otro ejemplo destacado es el análisis de componentes principales, en el que normalmente preferimos la estandarización a la escala Mín-Máx, ya que estamos interesados en los componentes que maximizan la varianza (dependiendo de la pregunta y si el PCA calcula los componentes a través de la matriz de correlación en lugar de la matriz de correlación). matriz de covarianza; pero más sobre PCA en mi artículo anterior).
Sin embargo, esto no significa que el escalado Min-Max no sea útil en absoluto. Una aplicación popular es el procesamiento de imágenes, donde las intensidades de los píxeles deben normalizarse para ajustarse a un rango determinado (es decir, de 0 a 255 para el rango de color RGB). Además, el algoritmo de red neuronal típico requiere datos en una escala de 0-1.
Una desventaja de la normalización sobre la estandarización es que pierde algo de información en los datos, especialmente sobre los valores atípicos.
También en la página vinculada, hay esta imagen:
Como puede ver, el escalado agrupa todos los datos muy juntos, lo que puede no ser lo que desea. Podría hacer que algoritmos como el descenso de gradiente tarden más en converger a la misma solución que tendrían en un conjunto de datos estandarizados, o incluso podría hacerlo imposible.
“Normalizar variables” realmente no tiene sentido. La terminología correcta es “normalizar/escalar las funciones”. Si va a normalizar o escalar una función, debe hacer lo mismo con el resto.
Eso tiene sentido porque la normalización y la estandarización hacen cosas diferentes.
La normalización transforma sus datos en un rango entre 0 y 1
La estandarización transforma sus datos de modo que la distribución resultante tenga una media de 0 y una desviación estándar de 1
La normalización/estandarización están diseñadas para lograr un objetivo similar, que es crear características que tengan rangos similares entre sí. Queremos eso para estar seguros de que estamos capturando el true información en una característica, y que no ponderamos en exceso una característica en particular solo porque sus valores son mucho más grandes que otras características.
Si todas sus características están dentro de un rango similar entre sí, entonces no hay una necesidad real de estandarizar/normalizar. Sin embargo, si algunas características toman naturalmente valores que son mucho más grandes o más pequeños que otros, entonces se requiere normalización/estandarización.
Si va a normalizar al menos una variable/función, también haría lo mismo con todas las demás
La primera pregunta es ¿por qué necesitamos Normalización/Estandarización?
=> Tomamos un ejemplo de conjunto de datos donde tenemos variable de salario y variable de edad. La edad puede tener un rango de 0 a 90, donde el salario puede ser de 25 mil a 2.5 lakh.
Comparamos la diferencia para 2 personas, entonces la diferencia de edad estará en el rango de menos de 100, donde la diferencia salarial estará en el rango de miles.
Entonces, si no queremos que una variable domine a otra, entonces usamos Normalización o Estandarización. Ahora, tanto la edad como el salario estarán en la misma escala, pero cuando usamos la estandarización o la normalización, perdemos los valores originales y se transforma en algunos valores. Entonces, pérdida de interpretación, pero extremadamente importante cuando queremos sacar inferencias de nuestros datos.
La normalización vuelve a escalar los valores en un rango de [0,1]. también llamado min-max escalado.
La estandarización vuelve a escalar los datos para que tengan una media (μ) de 0 y una desviación estándar (σ) de 1. Por lo tanto, da un gráfico normal.
Ejemplo a continuación:
Otro ejemplo:
En la imagen de arriba, puede ver que nuestros datos reales (en verde) se distribuyen entre 1 y 6, los datos estandarizados (en rojo) se distribuyen entre -1 y 3, mientras que los datos normalizados (en azul) se distribuyen entre 0 y 1 .
Normalmente, muchos algoritmos requieren que primero estandarice/normalice los datos antes de pasarlos como parámetro. Como en PCA, donde hacemos la reducción de dimensiones trazando nuestros datos 3D en 1D (digamos). Aquí necesitábamos estandarización.
Pero en el procesamiento de imágenes, se requiere normalizar los píxeles antes del procesamiento. Pero durante la normalización, perdemos valores atípicos (puntos de datos extremos, ya sea demasiado bajos o demasiado altos), lo que es una pequeña desventaja.
Por lo tanto, depende de nuestra preferencia lo que elijamos, pero la estandarización es la más recomendada, ya que da una curva normal.