machine-learning – ¿Cuál es la interpretación del parámetro eps en la agrupación en clústeres DBSCAN?

Pregunta:

Quiero agrupar datos de latitud larga de modo que todos los grupos formados tengan un radio <= 1000 metros

Preguntas

  1. ¿Cuál es el significado real del parámetro eps? Por favor, dé un ejemplo.
  2. ¿El ajuste eps = 1000 servirá para mi propósito si la medida de la distancia es haversine en metros?

Entiendo que el parámetro minpts es el tamaño del clúster.

Respuesta:

Epsilon es el radio local para expandir los clústeres. Piense en ello como un tamaño de paso: DBSCAN nunca da un paso más grande que este, pero al realizar varios pasos, los clústeres de DBSCAN pueden volverse mucho más grandes que eps .

Si desea que sus "grupos" tengan un radio máximo, ese es un tipo de problema de cobertura establecido, por lo que probablemente querrá una aproximación codiciosa. No es un problema de agrupamiento, porque no permite que el algoritmo de agrupamiento descubra una estructura más grande que eso. Desea aproximar sus datos con una cubierta, ignorando la estructura.

Pero hay algunos algoritmos de agrupamiento en los que puede limitar el radio del clúster (pero probablemente no se esforzarán lo suficiente para optimizar su problema):

  1. LEADER es como DBSCAN sin la expansión del clúster. Elija un punto no agrupado y agregue todo dentro de un radio de x. Repita hasta que todos los puntos estén "agrupados". No optimiza nada y no obtiene muchas propiedades teóricas. Pero la distancia máxima en un grupo es 2x. Ejecútelo dos veces y obtendrá resultados muy diferentes.
  2. HAC de enlace completo después de cortar el dendrograma a la altura x, que es la distancia máxima de dos puntos. Los resultados deberían ser mucho mejores que los de Leader y más estables. Sin embargo, el HAC de enlace completo puede no encontrar el óptimo. 3 CLINK es una variante más rápida de Enlace completo (solo O (n²) en lugar de n³) pero tiende a encontrar soluciones mucho peores. Es posible que desee ejecutar esto varias veces en la permutación de sus datos.

Leave a Comment

Your email address will not be published. Required fields are marked *

web tasarım