Sergio Hernández: Robust Clustering with Applications in Computer Vision

Introducción

Varias tareas puede formularse como el siguiente problema de reconocimiento de patrones: Dado un conjunto de puntos en un espacio p-dimensional, encuentra la mejor partición del espacio en grupos significativos. Los puntos en el espacio corresponden a vectores de características extraídos de la imagen, y el espacio se denomina espacio de características. Cada uno de los grupos delineados a continuación, representa un subconjunto de la imagen. Transformaciones diferentes de la imagen de entrada de ceder espacios de características diferentes y permite la discriminación de subconjuntos diferentes.

El algoritmo de clustering

Sea X un conjunto de n puntos de datos distintos en un espacio de características p-dimensional:

Cada punto tiene asociado con él un escalar positivo qi peso. Los pesos describir la iportance de los puntos en X; su definición depende de la aplicación. En general, el qi no debe ser un número entero, sin embargo, para las aplicaciones descritas en este documento, podemos restringir r a valores enteros de pesos. En particular, qi puede representar la multiplicidad de xi, es decir, el número de regiones locales en la imagen se asignan a los mismos puntos en los vectores de características extraídos de la imagen de entrada, será de importancia. Se puede considerar como una medida de la "masa" presente en el espacio de características.

La cantidad

Son subconjuntos significativos que se extraen de la imagen mediante la partición de la función de espacio en k p-dimensionales clusters. El número de estos grupos de k no se conoce a priori. El algoritmo de agrupamiento propuesto en este documento se basa en el mínimo volumen Robus Estimador Elipsoide (MVE) de Rousseeuw y Leroy.

Histograma basado en las imágenes

Un histograma es una representación característica espacio discreto de una imagen digital. El valor de cada píxel es un número entero (imagen en escala de grises) o un p-tupla de enteros (imagen a color). El conjunto de posibles (p-tuplas de) números enteros es la característica de un espacio X. El peso qi es el número de píxeles mapeados en el punto i-ésimo en el espacio de características, es decir, el contenido de la bandeja de i-ésimo en la histograma. En el histograma se descompone en unos pocos grupos que no se superponen caracterizados por su Ti centros. Cada píxel de la imagen es entonces asignada en el valor del centro de la agrupación a la que pertenece el píxel. El resultado es una segmentación global de la imagen. Tenga en cuenta que el número de umbrales utilizados (es decir, el número de grupos) no se conoce un priori desde histogramas diferentes requieren diferentes descomposiciones.

En resumen el documento muestra un algoritmo de agrupamiento que se debe a su tolerancia en cada etapa del procedimiento de la mitad de los datos que se están gravemente dañados, es decir, que no pertenece a la agrupación extraído. El uso del equivalente de clúster normal multivariante para los datos es débil. Rousseeuw y Zomeren sugieren una suposición unimodal distribución elíptica suficiente para detectar correctamente. También se observa que los ejemplos se realizaron con datos reales. El algoritmo también tolera la presencia de ruido de impulso.

El algoritmo identifica iterativamente las regiones de densidad máxima en el espacio de características. Estas regiones corresponden a los modos de la distribución de probabilidad continua.

En los métodos propuestos, el espacio de características es cuantificada y la estructura de la densidad de probabilidad se calcula con la localización de los k vecinos más cercanos o por un enfoque Parzen Windows.

Bibliografía:

http://www.csee.usf.edu/~manohar/Papers/FCM/Robust%20Clustering%20with%20applications%20in%20computer%20vision.pdf