Análisis de conglomerados
31 may. 2026 Tiempo de lectura ≈ 8 min
Después de una encuesta te queda una tabla: encuestados, decenas de preguntas, escalas y datos demográficos. Te gustaría ver si las respuestas se agrupan en tipos reconocibles — «detractores», «leales», «neutrales» o algo propio. Pero los límites de esos grupos se desconocen de antemano, y revisar cientos de filas a mano no es realista.
Aquí ayuda el análisis de conglomerados: una familia de métodos que agrupan objetos por «similitud» de modo que dentro de un grupo todo esté lo más cerca posible, mientras que entre grupos la diferencia sea clara. El resultado es una asignación de conglomerados que luego puedes describir, nombrar y usar para la segmentación.
Es importante entender: el análisis de conglomerados no explica nada ni contrasta hipótesis — solo divide los datos. El resultado depende en gran medida de qué variables elegiste y qué algoritmo aplicaste. Por eso los conglomerados deben comprobarse en cuanto a estabilidad e interpretarse con sentido; de lo contrario obtendrás una imagen pulcra pero inútil para tomar decisiones.
Qué es el análisis de conglomerados en términos sencillos
El análisis de conglomerados es un grupo de métodos de estadística multivariante que dividen un conjunto de objetos en subconjuntos (conglomerados) de modo que los objetos dentro de un mismo conglomerado sean similares entre sí en las características elegidas, mientras que los objetos de conglomerados distintos difieran. El número de conglomerados puede fijarse de antemano o seleccionarse mediante criterios. El resultado es una asignación de «quién está en qué conglomerado», que luego se usa para la segmentación, el perfilado o un análisis posterior.
Dicho de forma sencilla: introduces una tabla (por ejemplo, encuestados × respuestas por escala), indicas «sobre qué se mide la similitud», y el algoritmo devuelve grupos. Los conglomerados no traen nombres «de fábrica» — los nombres y el sentido los das tú mismo tras revisar las medias y las distribuciones de las variables en cada conglomerado.
Cuándo es apropiado el análisis de conglomerados
- Segmentación sin reglas rígidas. Hay que identificar tipos de clientes, usuarios o encuestados según muchas características (comportamiento, actitudes, datos demográficos), pero no se sabe de antemano cuántos segmentos hay ni dónde están los límites. La conglomeración sugiere una posible estructura.
- Exploración de datos. Después de una encuesta hay muchas variables; quieres ver si las respuestas «se agrupan» en grupos naturales. Los conglomerados dan un borrador de segmentos que luego refinas o validas con datos nuevos.
- Agrupar no solo a personas. También se pueden conglomerar objetos de otro tipo: productos, ítems del cuestionario, comentarios de texto libre — por características numéricas o transformadas.
El análisis de conglomerados no sustituye un diseño cuantitativo con hipótesis: es descriptivo. Si ya tienes criterios de segmentación claros (por ejemplo, «edad e ingresos»), es más fácil dividir la muestra por ellos o usar tablas cruzadas. La conglomeración es útil cuando hay muchas características y buscas una agrupación oculta.
Cuándo no hace falta la conglomeración. Si los segmentos están definidos de forma explícita (región, tipo de cliente por contrato), divide por ellos. Si el objetivo es contrastar la relación entre dos variables, usa la correlación o la regresión. El análisis de conglomerados no responde a la pregunta «¿influye X en Y?» — solo a «¿cómo se agrupan los objetos?».
Enfoques principales
Conglomeración jerárquica. Se construye un «árbol»: primero cada objeto es su propio conglomerado, luego en cada paso se fusionan los dos conglomerados más cercanos. A partir del árbol puedes recortar el número deseado de conglomerados. La ventaja es el dendrograma intuitivo; la desventaja es que con un gran número de objetos resulta laborioso y sensible a los valores atípicos.
K-medias (K-means). Tú fijas el número de conglomerados K; el algoritmo reasigna iterativamente los objetos entre K centroides de modo que se minimice la suma de los cuadrados de las distancias a los centros. Es rápido y escala bien, pero K hay que elegirlo de antemano (por un criterio elíptico, el «codo» o por razones de fondo).
La relación con el análisis factorial. A menudo, antes de la conglomeración se reduce la dimensionalidad de los datos mediante el análisis factorial o el PCA: los conglomerados se construyen entonces sobre las puntuaciones factoriales y no sobre decenas de variables originales. Así se reduce el ruido y se simplifica la interpretación.
La elección de la métrica de distancia (euclídea, Manhattan, correlación, etc.) y del método de enlace (para la jerarquía) influye en el resultado. Es mejor estandarizar las variables, de lo contrario las características con mayor varianza dominarán.
Cómo elegir el número de conglomerados. Para K-medias, K se fija de antemano. A menudo se traza la «suma de cuadrados dentro del conglomerado» frente a K (el método del «codo»): a partir de cierto K la ganancia de añadir un conglomerado se vuelve pequeña. Otra opción es de fondo: «necesitamos 3–4 segmentos para el producto». Para la conglomeración jerárquica el número de conglomerados se elige por el «corte» del dendrograma: donde la distancia entre los conglomerados fusionados crece bruscamente. Es mejor validar el resultado: con un K distinto los perfiles de los conglomerados no deberían desmoronarse por completo.
Ejemplo en el contexto de las encuestas
Una encuesta de satisfacción: 20 ítems en una escala de 1 a 5, más sexo, edad y frecuencia de uso. Los encuestados son las filas, las variables son las columnas. Tras la estandarización ejecutamos K-medias con K=3 o K=4. Obtenemos tres o cuatro conglomerados. Luego miramos las medias de cada ítem y los datos demográficos dentro de los conglomerados: un conglomerado puede resultar ser de «detractores» (puntuaciones bajas, usuarios menos frecuentes), otro de «leales» (puntuaciones altas), un tercero de «neutrales». Estos nombres los das tú mismo; el análisis de conglomerados solo asignó las etiquetas. El tamaño de los conglomerados y su estabilidad se pueden comprobar en una submuestra o con otro algoritmo.
Otro ejemplo: agrupar los ítems del cuestionario. Los objetos no son los encuestados sino las preguntas (por ejemplo, 30 afirmaciones en escala de Likert). Las características son las respuestas medias a cada pregunta en submuestras o las correlaciones entre ítems. La conglomeración puede mostrar qué ítems «van juntos» — un borrador de escalas o de bloques temáticos. Para una comprobación más fina de la estructura se usa más a menudo el análisis factorial; la conglomeración da una visión rápida.
Interpretación y uso de los conglomerados
Una vez que tienes la asignación de conglomerados, hay que describirlos y nombrarlos. Mira las medias (y, donde haga falta, las proporciones) de todas las variables en cada conglomerado: ¿en qué destaca este conglomerado? Compara los tamaños de los conglomerados: ¿no hay uno «enorme» y varios «mínimos» — en cuyo caso la división puede ser inestable? Resulta cómodo construir gráficos de perfil o mapas de calor de «conglomerado × variable». Los nombres de los conglomerados («detractores», «leales», «neutrales») los asigna el investigador a partir de esos perfiles; después los conglomerados se pueden usar como variable de agrupación en tablas cruzadas, regresiones o informes por segmentos.
Limitaciones y errores típicos
Los conglomerados no tienen por qué ser «reales». El algoritmo siempre producirá una división, aunque en los datos no haya una agrupación clara. Hace falta una comprobación: varía K, el método, la submuestra — si la estructura salta mucho, sé cauteloso con las conclusiones.
Dependencia del conjunto de variables. Añades o quitas características y los conglomerados pueden cambiar. En el informe, indica con qué variables y con qué ajustes se realizó la conglomeración.
Confundirlo con la regresión y la correlación. El análisis de correlación y el análisis de regresión responden a preguntas sobre relaciones y predicción. El análisis de conglomerados solo agrupa objetos; no estima el «efecto» de las características ni predice un resultado.
Ignorar el tamaño y la representatividad. Los conglomerados se construyen sobre la muestra que tienes. Si la muestra no es representativa o el tamaño es pequeño, los segmentos no pueden trasladarse a la población sin supuestos adicionales.
Demasiadas variables sin selección. Incluir decenas de características «por si acaso» infla el ruido y puede dar conglomerados artificiosos. Conviene seleccionar las variables según la tarea o reducir de antemano la dimensionalidad (PCA, análisis factorial), y luego conglomerar sobre un número menor de componentes.
Cómo se ve en SurveyNinja
SurveyNinja no tiene análisis de conglomerados integrado. Un escenario típico: exportar las respuestas mediante los informes de la encuesta a CSV/XLSX, y luego ejecutar la conglomeración en una herramienta externa (Excel con complementos, R, Python, SPSS, JAMOVI). Conviene filtrar primero los encuestados y las variables sobre las que vas a calcular la proximidad; si hace falta, usar la codificación de los campos abiertos y construir los conglomerados ya sobre los códigos o las escalas numéricas.
Recomendaciones prácticas
Define con claridad los objetos y las características. ¿Encuestados o algo distinto? ¿Qué variables entran en el cálculo de la distancia? Las variables categóricas hay que transformarlas (binarias, dummy) o usar algoritmos que admitan tipos mixtos.
Estandariza las variables. De lo contrario, las características con gran dispersión dominarán. La excepción es cuando distintas escalas tienen sentido por diseño.
Comprueba la estabilidad. Varía K, el método, la submuestra aleatoria; observa si los conglomerados siguen siendo sustancialmente similares. Si no, no compliques en exceso la interpretación.
Describe la metodología en el informe. Indica: el método (K-medias, jerárquico, etc.), el número de conglomerados y cómo se eligió, la lista de variables, la herramienta de software. Así el lector podrá evaluar y reproducir el análisis.
El análisis de conglomerados es una herramienta de exploración y segmentación sin reglas rígidas: agrupa objetos por proximidad en las características elegidas. El resultado hay que comprobarlo en cuanto a estabilidad e interpretarlo con sentido; para los cálculos se usan programas externos tras exportar los datos de SurveyNinja.
Publicado: 31 may. 2026
Mike Taylor