Conteúdo

Crie sua própria pesquisa hoje

Criador de pesquisas grátis e fácil de usar sem limite de respostas. Comece a coletar feedback em minutos.

Comece grátis
Logo SurveyNinja

Análise de agrupamento

Depois de uma pesquisa, você fica com uma tabela: respondentes, dezenas de perguntas, escalas e dados demográficos. Você gostaria de ver se as respostas se organizam em tipos reconhecíveis — «detratores», «leais», «neutros» ou algo próprio. Mas os limites desses grupos são desconhecidos de antemão, e percorrer centenas de linhas à mão não é realista.

É aqui que a análise de agrupamento ajuda: uma família de métodos que agrupam objetos por «semelhança» de modo que, dentro de um grupo, tudo fique o mais próximo possível, enquanto entre os grupos a diferença seja clara. O resultado é uma atribuição de agrupamentos que você pode então descrever, nomear e usar para a segmentação.

É importante entender: a análise de agrupamento não explica nada nem testa hipóteses — apenas divide os dados. O resultado depende muito de quais variáveis você escolheu e de qual algoritmo aplicou. Por isso os agrupamentos devem ser verificados quanto à estabilidade e interpretados com sentido; caso contrário, você obterá um quadro arrumado, mas inútil para decisões.

O que é a análise de agrupamento em termos simples

A análise de agrupamento é um grupo de métodos de estatística multivariada que dividem um conjunto de objetos em subconjuntos (agrupamentos) de modo que os objetos dentro de um mesmo agrupamento sejam semelhantes entre si nas características escolhidas, enquanto os objetos de agrupamentos diferentes difiram. O número de agrupamentos pode ser definido de antemão ou selecionado por critérios. O resultado é uma atribuição de «quem está em qual agrupamento», que depois é usada para a segmentação, a definição de perfis ou uma análise posterior.

Dito de forma simples: você fornece uma tabela (por exemplo, respondentes × respostas por escala), indica «sobre o que se mede a semelhança», e o algoritmo devolve grupos. Os agrupamentos não vêm com nomes «de fábrica» — os nomes e o sentido você mesmo atribui depois de examinar as médias e as distribuições das variáveis em cada agrupamento.

Quando a análise de agrupamento é apropriada

  • Segmentação sem regras rígidas. É preciso identificar tipos de clientes, usuários ou respondentes a partir de muitas características (comportamento, atitudes, dados demográficos), mas não se sabe de antemão quantos segmentos há nem onde estão os limites. O agrupamento sugere uma possível estrutura.
  • Exploração de dados. Depois de uma pesquisa há muitas variáveis; você quer ver se as respostas «se organizam» em grupos naturais. Os agrupamentos dão um rascunho de segmentos que depois você refina ou valida com novos dados.
  • Agrupar não apenas pessoas. Também se podem agrupar objetos de outro tipo: produtos, itens do questionário, comentários em texto livre — por características numéricas ou transformadas.

A análise de agrupamento não substitui um delineamento quantitativo com hipóteses: ela é descritiva. Se você já tem critérios de segmentação claros (por exemplo, «idade e renda»), é mais fácil dividir a amostra por eles ou usar tabelas cruzadas. O agrupamento é útil quando há muitas características e você procura um agrupamento oculto.

Quando o agrupamento não é necessário. Se os segmentos estão definidos de forma explícita (região, tipo de cliente por contrato), divida por eles. Se o objetivo é testar a relação entre duas variáveis, use a correlação ou a regressão. A análise de agrupamento não responde à pergunta «X influencia Y?» — apenas «como os objetos se reúnem em grupos?».

Principais abordagens

Agrupamento hierárquico. Constrói-se uma «árvore»: primeiro cada objeto é seu próprio agrupamento, depois, a cada passo, os dois agrupamentos mais próximos são fundidos. A partir da árvore você pode recortar o número desejado de agrupamentos. A vantagem é o dendrograma intuitivo; a desvantagem é que, com um grande número de objetos, é trabalhoso e sensível a valores atípicos.

K-médias (K-means). Você define o número de agrupamentos K; o algoritmo reatribui iterativamente os objetos entre K centroides de modo a minimizar a soma dos quadrados das distâncias aos centros. É rápido e escala bem, mas K precisa ser escolhido de antemão (por um critério elíptico, pelo «cotovelo» ou por razões de conteúdo).

A relação com a análise fatorial. Muitas vezes, antes do agrupamento, reduz-se a dimensionalidade dos dados por meio da análise fatorial ou do PCA: os agrupamentos são então construídos sobre os escores fatoriais e não sobre dezenas de variáveis originais. Assim se reduz o ruído e se simplifica a interpretação.

A escolha da métrica de distância (euclidiana, Manhattan, correlação etc.) e do método de ligação (para a hierarquia) influencia o resultado. É melhor padronizar as variáveis, caso contrário as características com maior variância dominarão.

Como escolher o número de agrupamentos. Para o K-médias, K é definido de antemão. Costuma-se traçar a «soma dos quadrados dentro do agrupamento» em função de K (o método do «cotovelo»): a partir de certo K o ganho de adicionar um agrupamento torna-se pequeno. Outra opção é de conteúdo: «precisamos de 3–4 segmentos para o produto». Para o agrupamento hierárquico, o número de agrupamentos é escolhido pelo «corte» do dendrograma: onde a distância entre os agrupamentos fundidos cresce bruscamente. É melhor validar o resultado: com um K diferente, os perfis dos agrupamentos não deveriam se desfazer por completo.

Exemplo no contexto das pesquisas

Uma pesquisa de satisfação: 20 itens em uma escala de 1 a 5, mais sexo, idade e frequência de uso. Os respondentes são as linhas, as variáveis são as colunas. Após a padronização, executamos o K-médias com K=3 ou K=4. Obtemos três ou quatro agrupamentos. Em seguida, olhamos as médias de cada item e os dados demográficos dentro dos agrupamentos: um agrupamento pode acabar sendo de «detratores» (notas baixas, usuários menos frequentes), outro de «leais» (notas altas), um terceiro de «neutros». Esses nomes você mesmo atribui; a análise de agrupamento apenas atribuiu os rótulos. O tamanho dos agrupamentos e a sua estabilidade podem ser verificados em uma subamostra ou com outro algoritmo.

Outro exemplo: agrupar os itens do questionário. Os objetos não são os respondentes, mas as perguntas (por exemplo, 30 afirmações em escala de Likert). As características são as respostas médias a cada pergunta em subamostras ou as correlações entre os itens. O agrupamento pode mostrar quais itens «andam juntos» — um rascunho de escalas ou de blocos temáticos. Para uma verificação mais fina da estrutura, usa-se com mais frequência a análise fatorial; o agrupamento dá uma visão rápida.

Interpretação e uso dos agrupamentos

Depois de obter a atribuição de agrupamentos, é preciso descrevê-los e nomeá-los. Olhe as médias (e, quando necessário, as proporções) de todas as variáveis em cada agrupamento: no que esse agrupamento se destaca? Compare os tamanhos dos agrupamentos: não há um «enorme» e vários «mínimos» — caso em que a divisão pode ser instável? É conveniente construir gráficos de perfil ou mapas de calor de «agrupamento × variável». Os nomes dos agrupamentos («detratores», «leais», «neutros») são atribuídos pelo pesquisador com base nesses perfis; depois os agrupamentos podem ser usados como variável de agrupamento em tabelas cruzadas, regressões ou relatórios por segmentos.

Limitações e erros comuns

Os agrupamentos não precisam ser «reais». O algoritmo sempre produzirá uma divisão, mesmo que nos dados não haja um agrupamento claro. É preciso uma verificação: varie K, o método, a subamostra — se a estrutura oscila muito, seja cauteloso com as conclusões.

Dependência do conjunto de variáveis. Você adiciona ou remove características e os agrupamentos podem mudar. No relatório, indique com quais variáveis e com quais configurações o agrupamento foi realizado.

Confundi-lo com a regressão e a correlação. A análise de correlação e a análise de regressão respondem a perguntas sobre relações e previsão. A análise de agrupamento apenas agrupa objetos; não estima o «efeito» das características nem prevê um resultado.

Ignorar o tamanho e a representatividade. Os agrupamentos são construídos sobre a amostra que você tem. Se a amostra não for representativa ou o tamanho for pequeno, os segmentos não podem ser transferidos para a população sem pressupostos adicionais.

Variáveis demais sem seleção. Incluir dezenas de características «por via das dúvidas» infla o ruído e pode gerar agrupamentos artificiais. Faz sentido selecionar as variáveis conforme a tarefa ou reduzir de antemão a dimensionalidade (PCA, análise fatorial), e então agrupar sobre um número menor de componentes.

Como isso aparece no SurveyNinja

O SurveyNinja não tem análise de agrupamento integrada. Um cenário típico: exportar as respostas por meio dos relatórios da pesquisa para CSV/XLSX e depois executar o agrupamento em uma ferramenta externa (Excel com suplementos, R, Python, SPSS, JAMOVI). Faz sentido primeiro filtrar os respondentes e as variáveis sobre as quais você vai calcular a proximidade; se necessário, usar a codificação dos campos abertos e construir os agrupamentos já sobre os códigos ou as escalas numéricas.

Recomendações práticas

Defina com clareza os objetos e as características. Respondentes ou outra coisa? Quais variáveis entram no cálculo da distância? As variáveis categóricas precisam ser transformadas (binárias, dummy) ou você deve usar algoritmos que admitam tipos mistos.

Padronize as variáveis. Caso contrário, as características com grande dispersão dominarão. A exceção é quando escalas diferentes fazem sentido por concepção.

Verifique a estabilidade. Varie K, o método, a subamostra aleatória; observe se os agrupamentos permanecem substancialmente semelhantes. Se não, não complique demais a interpretação.

Descreva a metodologia no relatório. Indique: o método (K-médias, hierárquico etc.), o número de agrupamentos e como foi escolhido, a lista de variáveis, a ferramenta de software. Assim o leitor poderá avaliar e reproduzir a análise.

A análise de agrupamento é uma ferramenta de exploração e segmentação sem regras rígidas: agrupa objetos por proximidade nas características escolhidas. O resultado precisa ser verificado quanto à estabilidade e interpretado com sentido; para os cálculos, usam-se programas externos após exportar os dados do SurveyNinja.

1