Conteúdo

Crie sua própria pesquisa hoje

Criador de pesquisas grátis e fácil de usar sem limite de respostas. Comece a coletar feedback em minutos.

Comece grátis
Logo SurveyNinja

Teste de hipóteses

Você mudou a redação de uma pergunta da pesquisa - e a taxa de resposta subiu de 23% para 27%. É uma melhoria real ou apenas sorte da amostra?

Você reformulou um botão em uma landing page - e a conversão subiu 2 pontos percentuais. Sinal ou ruído? O teste de hipóteses é a ferramenta estatística que permite responder a essa pergunta não com um vago "parece que sim", mas com um nível de confiança concreto.

Definição

O teste de hipóteses é um procedimento estatístico que permite aceitar ou rejeitar uma suposição sobre uma população com base em dados de uma amostra. O procedimento formaliza a pergunta "isso é aleatório ou não?" por meio de uma hipótese nula (H0), uma hipótese alternativa (H1), um nível de significância e um valor-p. Se o valor-p cair abaixo do limiar de significância escolhido, a hipótese nula é rejeitada.

Hipótese nula e alternativa

Todo teste começa com a formulação de duas hipóteses. A hipótese nula (H0) é a suposição de que não há efeito ou diferença. "A nova redação da pergunta não afeta a taxa de resposta", "Não há diferença de satisfação entre os grupos". H0 é o que a estatística tenta refutar.

A hipótese alternativa (H1) é a suposição de que existe um efeito. "A nova redação aumenta a taxa de resposta", "O grupo A está mais satisfeito que o grupo B". H1 é aceita se os dados fornecerem evidências suficientes contra H0.

Uma nuance importante: a estatística nunca "prova" H1. Ela apenas mostra o quão improváveis são os dados observados, supondo que H0 seja verdadeira. Quanto menor essa probabilidade, mais fortes são os motivos para rejeitar H0.

Valor-p e nível de significância

O valor-p é a probabilidade de obter um resultado pelo menos tão extremo quanto o observado, se a hipótese nula for verdadeira. Se p = 0,03, isso significa: se H0 fosse verdadeira (nenhum efeito), tal resultado ou um mais extremo ocorreria em apenas 3% dos casos.

O nível de significância (α) é um limiar escolhido com antecedência, abaixo do qual o valor-p é considerado motivo suficiente para rejeitar H0. O padrão na maioria das pesquisas é α = 0,05 (5%). Na medicina e na ciência é 0,01 ou 0,001. Na análise de negócios às vezes se usa 0,1 para decisões rápidas.

O limiar é escolhido antes da coleta de dados, não depois. Ajustar α a um resultado já obtido é p-hacking, uma forma de manipulação de dados que produz conclusões falso-positivas.

Erros do tipo I e do tipo II

Dois tipos de erros são inevitáveis em qualquer teste estatístico:

Um erro do tipo I (falso positivo) é rejeitar H0 quando ela é de fato verdadeira. "Encontrar um efeito onde não há nenhum". A probabilidade desse erro é igual a α. Com α = 0,05, em média cada 20º resultado significativo é fruto do acaso.

Um erro do tipo II (falso negativo) é não rejeitar H0 quando ela é falsa. "Deixar passar um efeito real". A probabilidade desse erro é β, e 1 - β é chamada de poder estatístico do teste. Quanto maior a amostra, menor o β e maior a chance de detectar um efeito real. Mais sobre a relação com o tamanho da amostra no artigo sobre o tamanho da amostra.

Na prática da pesquisa por questionários, o erro do tipo II costuma ser o mais perigoso: com uma amostra pequena, um efeito real se perde no ruído, e a empresa conclui que "não há melhoria" quando na verdade há.

Como formular hipóteses na pesquisa por questionários

Uma boa hipótese é específica, testável e formulada antes da coleta de dados. Alguns exemplos da prática de pesquisas:

  • Comparação de grupos: "A satisfação dos clientes que usam o chat ao vivo é maior do que a dos que entram em contato por telefone" - testada comparando as pontuações médias dos dois grupos.
  • Relação entre variáveis: "A frequência de uso do produto se correlaciona positivamente com o NPS" - testada por meio da análise de correlação.
  • Mudança ao longo do tempo: "Após a atualização da interface, a taxa de conclusão subiu" - testada comparando os indicadores antes e depois.

Uma hipótese ruim: "Os usuários estão em geral satisfeitos com o produto". Isso não é uma hipótese, mas uma suposição sem um critério preciso. Para transformá-la em testável: "A pontuação média de satisfação ultrapassa 4 de 5 no segmento-alvo".

Qual teste estatístico escolher

O teste é escolhido conforme o tipo de dados e a estrutura da comparação. Para a pesquisa por questionários, os três cenários mais comuns são:

Comparação de dois grupos pelas médias. Por exemplo, a pontuação média de satisfação dos clientes A vs B. Usa-se um teste t para amostras independentes. Condição: os dados estão aproximadamente distribuídos de forma normal ou a amostra é grande o suficiente (n > 30). Se forem comparadas as respostas das mesmas pessoas antes e depois, um teste t pareado.

Comparação de três ou mais grupos. Três regiões, quatro segmentos, cinco produtos. Aqui o teste t não serve: ele não foi pensado para comparações múltiplas. Usa-se a ANOVA (análise de variância). Se a ANOVA mostrar um resultado significativo, testes post hoc adicionais (Tukey, por exemplo) determinam entre quais pares exatamente há diferenças.

Comparação de proporções. "O percentual de clientes satisfeitos no grupo A vs grupo B" ou "A proporção de pessoas que concluíram a pesquisa em duas versões do formulário". Usa-se um teste z para proporções ou um teste de qui-quadrado. O qui-quadrado também serve para testar a independência de duas variáveis categóricas, por exemplo, se o cargo do respondente está relacionado ao seu nível de engajamento.

Testes não paramétricos. Quando os dados não estão distribuídos de forma normal e a amostra é pequena, usam-se equivalentes não paramétricos: o teste de Mann-Whitney em vez do teste t, o teste de Kruskal-Wallis em vez da ANOVA. Eles trabalham com postos em vez de valores e são menos sensíveis a valores atípicos, o que importa nas perguntas de escala com 5-7 graduações.

Análise de poder: planejar antes da coleta de dados

O poder de um teste (1 - β) é a probabilidade de detectar um efeito se ele realmente existir. O nível-alvo padrão é de 80%. Isso significa: quando um efeito existe de fato, o teste o deixará passar em 20% dos casos.

O poder depende de quatro parâmetros: o tamanho da amostra, o nível de significância α, o tamanho do efeito esperado e a variância dos dados. Uma análise de poder permite calcular o tamanho de amostra necessário antes de iniciar o estudo, para que, com o α escolhido e o efeito esperado, o teste tenha poder suficiente.

Um exemplo prático: você espera que um novo onboarding aumente o NPS em média 5 pontos. O desvio padrão do NPS na sua base é de cerca de 20 pontos. Com α = 0,05 e poder de 80% você precisa de cerca de 250 pessoas em cada grupo. Se recrutar 50 em cada, o poder cai para 30% e um efeito real passa despercebido em 70% dos casos. Há uma calculadora de tamanho de amostra disponível nas ferramentas da SurveyNinja.

O teste de hipóteses em testes A/B

Os testes A/B são um dos cenários mais comuns de aplicação do teste de hipóteses. Duas versões (controle e experimental) são exibidas a grupos aleatórios e, em seguida, a métrica-alvo é comparada. H0: "Não há diferença entre as versões". H1: "A versão B é melhor que a versão A".

As condições críticas de um teste A/B correto: atribuição aleatória aos grupos, um tamanho suficiente de cada grupo, um período de teste definido com antecedência e uma única variável alterada. Parar o teste no momento em que o valor-p cai pela primeira vez abaixo de 0,05 é um erro comum: isso aumenta a probabilidade de um erro do tipo I. O teste deve durar até atingir o tamanho de amostra calculado com antecedência.

Exemplo: testar uma hipótese em uma pesquisa de NPS

Uma empresa migrou para um novo onboarding. Hipótese: "O NPS dos usuários que passaram pelo novo onboarding é maior que o dos que passaram pelo antigo". Antes da mudança, o NPS foi medido em 300 usuários - pontuação média de 32. Depois, em 400 usuários, pontuação média de 38. A diferença de 6 pontos parece significativa. Mas é acaso ou um efeito real?

Eles executam um teste t para amostras independentes. Valor-p = 0,04, nível de significância α = 0,05. O valor-p está abaixo do limiar, então H0 é rejeitada. Conclusão: a diferença é estatisticamente significativa e o novo onboarding está associado a um NPS mais alto. O intervalo de confiança da diferença: de +1,2 a +10,8 pontos com probabilidade de 95%.

Se a amostra tivesse sido de 50 pessoas por grupo, o valor-p para a mesma diferença poderia ter sido 0,3, e a conclusão teria sido "nenhum efeito detectado". Não porque não haja, mas porque a amostra pequena não forneceu poder suficiente.

Testes unilaterais e bilaterais

Ao formular H1, é importante definir a direção do teste. Um teste bilateral verifica qualquer diferença em relação a H0: "os grupos diferem" (não importa em que direção). Um teste unilateral verifica uma direção específica: "o grupo A é melhor que o grupo B". Um teste unilateral é mais poderoso quando a direção da hipótese está correta, mas se o efeito acabar indo na outra direção, o teste não o detectará. Por padrão, usa-se o bilateral: ele é mais conservador e mais honesto.

Erros típicos ao testar hipóteses

Formular hipóteses depois de ver os dados. O HARKing (Hypothesizing After the Results are Known) é quando a hipótese é ajustada a um padrão já encontrado. O resultado parece significativo, mas na verdade não foi testado.

Confundir significância estatística e prática. Com uma amostra grande, até um efeito minúsculo será estatisticamente significativo. Uma diferença de 0,3 ponto no NPS com p = 0,001 é estatisticamente significativa, mas praticamente sem sentido. Olhe sempre para o tamanho do efeito, não apenas para o valor-p.

Comparações múltiplas sem correção. Se você testar 20 hipóteses com α = 0,05, uma sairá "significativa" por acaso. Em verificações em massa é preciso uma correção (Bonferroni ou FDR); caso contrário, o número de falsos positivos cresce em proporção ao número de testes.

Ferramentas e SurveyNinja

Para os cálculos, a SurveyNinja oferece um conjunto de calculadoras estatísticas: uma calculadora de valor-p, uma calculadora de significância para A/B e uma calculadora de tamanho de amostra. Antes de lançar uma pesquisa, é útil calcular o tamanho necessário, para que o teste tenha poder suficiente para detectar o efeito esperado.

O gerador de hipóteses baseado em IA ajuda a formular uma hipótese no início de um estudo. Os dados para o teste são coletados por meio de pesquisas com métricas claramente definidas; já na etapa de design da pesquisa é importante decidir qual variável exatamente será testada.

O teste de hipóteses é uma forma formal de distinguir o sinal do ruído. H0 é formulada antes da coleta de dados, o valor-p é comparado com um α escolhido com antecedência e o tamanho do efeito é avaliado separadamente da significância estatística. Sem isso, resultados "significativos" muitas vezes acabam sendo coincidências do acaso.

1