Definición de análisis clúster
Su objetivo es ordenar objetos (definidos por un conjunto de variables) en grupos de forma que los miembros del grupo sean lo más homogéneos posibles y los más heterogéneos entre miembros de distintos grupos
El análisis de clúster permite descubrir asociaciones y estructuras que no son evidentes a priori pero que pueden ser útiles una vez que se han detectado. Las estructuras encontradas pueden utilizarse para la definición formal de un esquema de clasificación (taxonomía).
Los métodos más utilizados de clusterización se dividen en dos grandes grupos: jerárquicos y no jerárquicos.
Clasificación de métodos jerárquicos y no jerárquicos
Análisis Clúster Jerárquicos (Hierarchical Cluster)
Los métodos jerárquicos o agrupamientos jerárquicos van generando grupos en cada una de las fases del proceso buscando el número de clúster que hacer una agrupación óptima.
El agrupamiento jerárquico es capaz de fijar por si solos el número de clústers, por ello se pueden utilizar de forma exploratoria y posteriormente aplicar un análisis no jerárquico con el número de clúster ya fijado.
Las estrategias para conseguir este objetivo se dividen en: estrategias aglomerativas y divisivas
Métodos
- Método del vecino más próximo (nearest neighbor clustering) o Enlace simple (Single linkage clustering)
- Método del vecino más lejano (furthest neighbor clustering) o Enlace completo (Complete Linkage clustering)
- Método de agrupación de vinculación promedio (Average linkage clustering) o Vinculación inter-grupo (unweighted Pair-group arithmetic averages (UPGMA))
- Método de Ward o Varianza mínima (Minimum variante clustering)
- Método del Centroide
- Método de la Mediana
Conviene comentar que a estos métodos se les puede aplicar tanto las estrategias aglomerativas como divisivas.
Análisis Clúster No Jerárquicos (Partitioning Cluster)
Los métodos no jerárquicos categorizan los elementos según un número de clúster dado.
Necesitan que el número de particiones esté fijado a priori.
Métodos
Métodos de re-asignación
- k-means (centroides)
- k-medoids o PAM (medioides)
- Clara (medioides)
- Quick-cluster (centroides)
- Método de Forgy (centroides)
- Nubes dinámicas
Métodos de búsqueda de densidad
- Análisis Modal (aproximación tipológica)
- Método Taxmap (aproximación tipológica)
- Método de Fortin (aproximación tipológica)
- Método de Wolf (aproximación probabilística)
Métodos directos
- Block-Clustering
Métodos reducidos
- Análisis Factorial tipo Q.
Hola Diego,
Estoy introduciéndome en este mundillo del Análisis de Datos o BigData, aunque yo más bien diría Universo de los Datos. Nunca imaginé la gran ingeniería y vasto conocimiento que hay detrás de los datos.
Muchas gracias por tu formidable portal. Lo he cogido como referencia para seguir estudiando.
amigo tu vlog es muy informal mejoralo para usarlo en mi trabajo
Este tipos de paginas web muestran información informal pero con el objetivo de que sea sencillo para todo el que lo lea. Si quieres algo más formal andá dedícate a buscar en revistas indexadas como Scopus o IEEE Xplore y usalos como referencia. Aprende a investigar.
el nivel de arrogancia es tan grande que hizo volar mi computador. Mi hermano en cristo si quieres algo hecho ponte manos a la obra.
…grande … y la ignorancia atrevida (aumentaría yo). Al autor: siga Ud., muchas gracias por el excelente resumen.