Conteúdo

Crie sua própria pesquisa hoje

Criador de pesquisas grátis e fácil de usar sem limite de respostas. Comece a coletar feedback em minutos.

Comece grátis
Logo SurveyNinja

Distribuicao normal

Um histograma de respostas em uma escala as vezes parece um sino: a maioria dos valores se concentra no meio e sao menos frequentes em direcao as bordas. Essa forma e chamada de distribuicao normal. Nao se trata apenas de algo "bonito de ver": o quao proximos os seus dados estao dela muitas vezes determina quais metodos de analise voce pode usar.

Muitas formulas de intervalos de confianca, testes t e regressao se apoiam na suposicao de normalidade; quando os dados se afastam muito de uma distribuicao normal, algumas conclusoes podem perder validade ou exigir outros metodos.

Ao mesmo tempo, as respostas de pesquisas estao longe de sempre se distribuirem de forma normal: as escalas limitadas (por exemplo, 1-5), as proporcoes de "concordo / discordo", as avaliacoes enviesadas para um extremo: tudo isso pode produzir assimetria ou um aspecto "cortado". Por isso e importante entender o que e uma distribuicao normal, quando ela e invocada e como verificar os dados antes de aplicar metodos que dependem dela.

O que e uma distribuicao normal em palavras simples

Distribuicao normal - uma curva simetrica em forma de sino: no centro (em torno da media) ha mais observacoes, e a sua proporcao cai suavemente para a esquerda e para a direita. Ela e definida por dois numeros: a media e o desvio padrao (que determina o quao "espalhado" esta o sino). Uma curva assim costuma se caracterizar por isto: aproximadamente dois tercos dos valores caem na faixa "media mais ou menos um desvio padrao", e a faixa "mais ou menos dois desvios" abrange a esmagadora maioria. Varios procedimentos estatisticos sao construidos supondo que estamos lidando com dados assim, ou proximos deles.

Dito de forma mais simples: se voce tracar um histograma de tais dados, obtem uma "colina" simetrica com o seu pico no centro. Quanto mais os seus dados diferirem disso (assimetria acentuada, dois picos, bordas "cortadas"), mais cautela voce deve ter com os metodos projetados para a normalidade.

Um exemplo rapido. Considere a pergunta "Avalie de 1 a 5": com uma distribuicao normal voce veria um pico no meio (por exemplo, a maior quantidade de "3", menos "2" e "4", ainda menos "1" e "5") e "caudas" simetricas. Em pesquisas reais costuma ser diferente: 5% "1", 10% "2", 15% "3", 35% "4", 35% "5". Isso e um enviesamento a direita, sem sino, e as formulas projetadas para a normalidade sao aplicadas a tais dados com ressalvas ou substituidas por metodos nao parametricos.

Por que isso importa nas pesquisas

  • Intervalos de confianca para a media. Um intervalo estreito ao redor da media amostral (levando em conta o erro padrao e um multiplicador tabelado) da uma estimativa correta da incerteza somente se a distribuicao da media amostral for proxima da normal, o que, conforme o tamanho da amostra cresce, e garantido pelo teorema central do limite. Em amostras pequenas e com uma distribuicao muito "irregular" dos dados subjacentes, esse intervalo pode errar de forma notavel.
  • Comparacao de grupos (testes t). Um teste t de duas amostras e testes semelhantes pressupoem normalidade da distribuicao dentro dos grupos (ou um tamanho suficientemente grande, caso em que a distribuicao das medias e proxima da normal de qualquer forma). Quando a nao normalidade e pronunciada, as vezes se usam analogos nao parametricos (por exemplo, Mann-Whitney).
  • Regressao. Na regressao linear classica supoe-se que os residuos (erros do modelo) se distribuem normalmente. Quando isso e gravemente violado, as conclusoes sobre a significancia dos coeficientes e os intervalos de confianca podem ser incorretas; e possivel passar para modelos generalizados ou erros padrao robustos.

Em resumo: uma distribuicao normal nao e um objetivo de "deixar os dados bonitos", mas uma suposicao de certos metodos. Se os dados nao se encaixam nela, voce escolhe outros metodos, ou se apoia na assintotica (amostras grandes), ou aponta explicitamente as limitacoes.

Quando a verificacao e especialmente oportuna. Faz sentido olhar explicitamente para a distribuicao com uma amostra pequena (grosso modo, menos de 30-50 por grupo), ao comparar dois grupos em uma variavel quantitativa (um teste t) e antes de construir uma regressao linear. Com amostras grandes e uma descricao simples (medias, proporcoes), o teorema central do limite muitas vezes te "salva": as medias amostrais se comportam de forma normal mesmo quando os dados subjacentes nao sao normais.

Quando os dados de uma pesquisa geralmente nao sao normais

Escalas limitadas. As respostas em uma escala 1-5 ou 1-10 estao limitadas por cima e por baixo. Quando a media esta proxima de 4 ou 5, a distribuicao muitas vezes "esbarra" na borda: nao ha sino simetrico. O mesmo vale para as proporcoes de "sim/nao" ou "concordo/discordo". Para tais variaveis, a normalidade e a excecao, e nao a regra.

Enviesamento em uma direcao. A satisfacao costuma produzir um enviesamento em direcao as avaliacoes altas (em sua maioria "4" e "5", poucas "1" e "2"). O histograma e assimetrico: isso nao e uma distribuicao normal. As escalas Likert e outras escalas ordinais costumam se comportar exatamente assim.

Poucas observacoes. Com uma amostra pequena, mesmo de uma populacao normal, a distribuicao amostral pode parecer "irregular"; enquanto isso, os testes de normalidade tem pouco poder. Voce nao deveria confiar apenas no teste: olhe o histograma e o significado da variavel.

Por isso os relatorios de pesquisas costumam afirmar "foram usados metodos robustos a desvios da normalidade" ou "foi aplicado um teste nao parametrico": isso e precisamente um reconhecimento de que os dados raramente sao perfeitamente normais.

Como a normalidade e verificada

Graficos. Um histograma mostra se ha um unico pico no centro e se as "caudas" sao simetricas. Um grafico quantil-quantil (Q-Q) compara os seus dados com uma distribuicao normal teorica: os pontos ao longo de uma linha reta indicam proximidade da normalidade, enquanto uma curvatura notavel ou "caudas" para um lado indicam um desvio.

Testes estatisticos. Shapiro-Wilk, Kolmogorov-Smirnov e testes semelhantes respondem a pergunta "pode-se considerar a amostra extraida de uma populacao normal". A limitacao: com N grande, a menor discrepancia leva a rejeicao da normalidade, enquanto com N pequeno os testes mal sao sensiveis. Faz sentido se apoiar nos graficos e na substancia da variavel. Mesmo com uma "rejeicao" formal da normalidade por um teste (por exemplo, com 500 respostas), a forma da distribuicao pode continuar aceitavel para um teste t: julgue conforme a situacao.

O papel do tamanho da amostra. O teorema central do limite afirma: a medida que o tamanho da amostra cresce, a media amostral se comporta cada vez mais proxima da lei normal, mesmo que a grandeza subjacente (por exemplo, uma avaliacao em uma escala 1-5) nao se distribua assim. Por isso, ao calcular intervalos e testes para a media com um N solido, a suposicao de normalidade muitas vezes e considerada satisfeita "no limite", sem uma verificacao rigorosa de cada variavel.

Por que "normal"

O nome e historico: pensava-se que muitas grandezas naturais e de medicao (altura, erros de medicao) se agrupam exatamente assim. Nas pesquisas e nas escalas de pesquisa isso nao e garantido, mas as formulas de significancia estatistica, margem de erro e intervalos de confianca ainda costumam usar as propriedades da distribuicao normal. Saber quando os dados estao proximos dela e quando nao ajuda a escolher os metodos corretamente e a formular ressalvas no relatorio.

Erros tipicos

Exigir a normalidade "a qualquer custo". Os dados de pesquisas costumam ser nao normais por natureza. Nao e preciso descartar variaveis nem ajustar transformacoes apenas por um grafico bonito: e preciso escolher metodos adequados (nao parametricos, robustos) ou se apoiar explicitamente em amostras grandes e no teorema central do limite.

Confiar apenas no teste. Um unico teste de normalidade com N grande quase sempre dara uma "rejeicao", enquanto com N pequeno pode "deixar passar" uma forte nao normalidade. Olhe sempre o histograma e o grafico Q-Q.

Confundir a normalidade de uma variavel com a normalidade dos residuos. Na regressao voce verifica a normalidade dos residuos do modelo, e nao das variaveis originais. Os preditores originais podem estar distribuidos de qualquer maneira.

Ignorar a normalidade onde ela importa. Se voce constroi um intervalo de confianca para a media em uma amostra pequena (por exemplo, N=25) e os dados estao claramente enviesados ou tem valores atipicos, a formula classica pode dar um intervalo impreciso. Em tais casos sao apropriados o bootstrap, os intervalos nao parametricos ou uma nota explicita sobre as limitacoes.

Como isso aparece no SurveyNinja

O SurveyNinja nao tem uma verificacao de normalidade integrada. Os relatorios exibem medias e proporcoes por pergunta: a partir delas voce so pode julgar a forma da distribuicao de maneira aproximada. Para histogramas, graficos Q-Q e testes, voce exporta os dados para CSV/XLSX e os analisa no Excel, R, Python ou outro pacote. Se em seguida voce constroi intervalos de confianca ou uma regressao em uma ferramenta externa, e ali que costumam ser verificadas as suposicoes tambem.

Recomendacoes praticas

Para descrever a amostra nao se exige normalidade: a media, a mediana, as proporcoes e a dispersao sao calculadas para quaisquer dados. A normalidade importa quando voce passa para a inferencia: testes, intervalos de confianca, regressao.

Com uma amostra pequena e duvidas sobre a normalidade, sao preferiveis os metodos nao parametricos, ou uma declaracao explicita no relatorio de que foram usados metodos tolerantes aos desvios da normalidade.

O que escrever no relatorio. Na secao de metodologia basta uma frase: como voce levou em conta a forma da distribuicao, por exemplo, "verificado por histograma" ou "foram usados metodos que nao exigem normalidade estrita". Assim o cliente ve que as suposicoes nao foram ignoradas.

Media, mediana e dispersao. Em um sino "ideal" a media coincide com a mediana e a moda, e o desvio padrao descreve a amplitude. Se, nos seus dados, a media e a mediana divergem de forma notavel, isso e um sinal de assimetria e de um possivel desvio da lei normal. Sempre faz sentido olhar tambem para a dispersao: uma mesma avaliacao media pode corresponder a diferentes formas de distribuicao. Os detalhes, nos artigos sobre estatistica descritiva e o desvio padrao.

Uma distribuicao normal fixa as suposicoes para alguns metodos estatisticos; nas pesquisas, por causa das escalas curtas e das respostas enviesadas, os dados muitas vezes nao se encaixam nela. Convem verificar a forma da distribuicao onde as suas conclusoes dependem dela e, quando necessario, passar para procedimentos robustos ou nao parametricos.

1