Saltar al contenido

¿Elegir eps y minpts para DBSCAN (R)?

Este grupo de trabajo ha estado horas investigando la resolución a tu búsqueda, te dejamos la soluciones de modo que nuestro deseo es que te sea de mucha ayuda.

No existe una forma general de elegir minPts. De qué depende Uds querer encontrar. Un minPts bajo significa que creará más clústeres a partir del ruido, así que no lo elija demasiado pequeño.

Para epsilon, hay varios aspectos. De nuevo se reduce a elegir lo que funcione en esta conjunto de datos y esta minPtos y esta función de distancia y esta normalización. Puede intentar hacer un histograma de distancia knn y elegir una “rodilla” allí, pero es posible que no haya una o varias visibles.

OPTICS es un sucesor de DBSCAN que no necesita el parámetro epsilon (excepto por razones de rendimiento con soporte de índice, ver Wikipedia). Es mucho mejor, pero creo que es complicado implementarlo en R, porque necesita estructuras de datos avanzadas (idealmente, un árbol de índice de datos para la aceleración y un actualizable heap para la cola de prioridad), y R se trata de operaciones matriciales.

Ingenuamente, uno puede imaginar que OPTICS hace todos los valores de Epsilon al mismo tiempo y coloca los resultados en una jerarquía de grupos.

Sin embargo, lo primero que debe verificar, independientemente del algoritmo de agrupamiento que vaya a utilizar, es asegurarse de tener una función de distancia útil y una normalización de datos adecuada. Si tu distancia degenera, No el algoritmo de agrupamiento funcionará.

Una forma común y popular de administrar el parámetro épsilon de DBSCAN es calcular un gráfico de distancia k de su conjunto de datos. Básicamente, calcula los k vecinos más cercanos (k-NN) para cada punto de datos para comprender cuál es la distribución de densidad de sus datos, para diferentes k. el KNN es útil porque es un método no paramétrico. Una vez que elige un minPTS (que depende en gran medida de sus datos), fija k en ese valor. Luego, usa como épsilon la distancia k correspondiente al área de la gráfica de distancia k (para su k fijo) con una pendiente baja.

MinPts

Como explicó Anony-Mousse, ‘Un minPts bajo significa que creará más grupos a partir del ruido, así que no lo elijas demasiado pequeño.’.

minPts lo establece mejor un experto en el dominio que comprenda bien los datos. Desafortunadamente, en muchos casos no conocemos el conocimiento del dominio, especialmente después de que se normalizan los datos. Un enfoque heurístico es el uso en (n), donde norte es el número total de puntos a agrupar.

épsilon

Hay varias formas de determinarlo:

1) diagrama de k-distancia

En un agrupamiento con minPts = k, esperamos que las pintas centrales y la distancia k de los puntos fronterizos estén dentro de un cierto rango, mientras que los puntos de ruido pueden tener una distancia k mucho mayor, por lo que podemos observar una rodilla punto en la gráfica de k-distancia. Sin embargo, a veces puede no haber una rodilla obvia, o puede haber varias rodillas, lo que hace que sea difícil decidir

2) Extensiones DBSCAN como OPTICS

OPTICS produce clústeres jerárquicos, podemos extraer clústeres planos significativos de los clústeres jerárquicos mediante inspección visual, la implementación de OPTICS está disponible en el módulo Python pyclustering. Uno de los autores originales de DBSCAN y OPTICS también propuso una forma automática de extraer clústeres planos, donde no se requiere intervención humana, para obtener más información, puede leer este documento.

3) análisis de sensibilidad

Básicamente, queremos elegir un radio que sea capaz de agrupar más puntos verdaderamente regulares (puntos que son similares a otros puntos), mientras que al mismo tiempo detecta más ruido (puntos atípicos). podemos dibujar un porcentaje de puntos regulares (los puntos pertenecen a un clúster) VS. épsilon análisis, donde establecemos diferentes valores de épsilon como el eje x, y su correspondiente porcentaje de puntos regulares como el eje y, y con suerte podemos detectar un segmento donde el valor del porcentaje de puntos regulares es más sensible al valor de épsilon, y podemos elija el valor de épsilon límite superior como nuestro parámetro óptimo.

Comentarios y puntuaciones de la guía

Si para ti ha sido de provecho este post, sería de mucha ayuda si lo compartieras con el resto juniors y nos ayudes a difundir nuestra información.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)


Tags :

Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *