Saltar al contenido

SVM: ¿márgenes duros o blandos?

Posterior a investigar con expertos en esta materia, programadores de deferentes ramas y maestros hemos dado con la solución al dilema y la dejamos plasmada en este post.

Solución:

Esperaría que SVM de margen suave sea mejor incluso cuando el conjunto de datos de entrenamiento sea separable linealmente. La razón es que en una SVM de margen duro, un solo valor atípico puede determinar el límite, lo que hace que el clasificador sea demasiado sensible al ruido en los datos.

En el siguiente diagrama, un solo valor atípico rojo determina esencialmente el límite, que es el sello distintivo del sobreajuste

ingrese la descripción de la imagen aquí

Para tener una idea de lo que está haciendo SVM de margen suave, es mejor mirarlo en la formulación dual, donde puede ver que tiene el mismo objetivo de maximización de margen (el margen podría ser negativo) que el SVM de margen duro, pero con una restricción adicional de que cada multiplicador de lagrange asociado con el vector de soporte está acotado por C. Esencialmente, esto acota la influencia de cualquier punto único en el límite de decisión, para la derivación, consulte la Proposición 6.12 en “An Introduction to Support Vector” de Cristianini/Shaw-Taylor. Máquinas y otros métodos de aprendizaje basados ​​en kernel”.

El resultado es que SVM de margen suave podría elegir un límite de decisión que tenga un error de entrenamiento distinto de cero, incluso si el conjunto de datos es linealmente separable, y es menos probable que se sobreajuste.

Aquí hay un ejemplo usando libSVM en un problema sintético. Los puntos en círculos muestran vectores de soporte. Puede ver que la disminución de C hace que el clasificador sacrifique la separabilidad lineal para ganar estabilidad, en el sentido de que la influencia de cualquier punto de datos único ahora está limitada por C.

ingrese la descripción de la imagen aquí

Significado de los vectores de soporte:

Para SVM de margen duro, los vectores de soporte son los puntos que están “en el margen”. En la imagen de arriba, C = 1000 está bastante cerca de SVM de margen duro, y puede ver que los puntos dentro de un círculo son los que tocarán el margen (el margen es casi 0 en esa imagen, por lo que es esencialmente lo mismo que el hiperplano de separación )

Para SVM de margen suave, es más fácil explicarlos en términos de variables duales. Su predictor de vector de soporte en términos de variables duales es la siguiente función.

ingrese la descripción de la imagen aquí

Aquí, alfas y b son parámetros que se encuentran durante el procedimiento de entrenamiento, xi, yi son su conjunto de entrenamiento y x es el nuevo punto de datos. Los vectores de soporte son puntos de datos del conjunto de entrenamiento que se incluyen en el predictor, es decir, los que tienen un parámetro alfa distinto de cero.

En mi opinión, Hard Margin SVM se adapta a un conjunto de datos en particular y, por lo tanto, no puede generalizar. Incluso en un conjunto de datos linealmente separable (como se muestra en el diagrama anterior), los valores atípicos dentro de los límites pueden influir en el margen. Soft Margin SVM tiene más versatilidad porque tenemos control sobre la elección de los vectores de soporte ajustando el C.

Sección de Reseñas y Valoraciones

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *