Teste de hipóteses
31 mai 2026 Tempo de leitura ≈ 10 min
Você mudou a redação de uma pergunta da pesquisa - e a taxa de resposta subiu de 23% para 27%. É uma melhoria real ou apenas sorte da amostra?
Você reformulou um botão em uma landing page - e a conversão subiu 2 pontos percentuais. Sinal ou ruído? O teste de hipóteses é a ferramenta estatística que permite responder a essa pergunta não com um vago "parece que sim", mas com um nível de confiança concreto.
Definição
O teste de hipóteses é um procedimento estatístico que permite aceitar ou rejeitar uma suposição sobre uma população com base em dados de uma amostra. O procedimento formaliza a pergunta "isso é aleatório ou não?" por meio de uma hipótese nula (H0), uma hipótese alternativa (H1), um nível de significância e um valor-p. Se o valor-p cair abaixo do limiar de significância escolhido, a hipótese nula é rejeitada.
Hipótese nula e alternativa
Todo teste começa com a formulação de duas hipóteses. A hipótese nula (H0) é a suposição de que não há efeito ou diferença. "A nova redação da pergunta não afeta a taxa de resposta", "Não há diferença de satisfação entre os grupos". H0 é o que a estatística tenta refutar.
A hipótese alternativa (H1) é a suposição de que existe um efeito. "A nova redação aumenta a taxa de resposta", "O grupo A está mais satisfeito que o grupo B". H1 é aceita se os dados fornecerem evidências suficientes contra H0.
Uma nuance importante: a estatística nunca "prova" H1. Ela apenas mostra o quão improváveis são os dados observados, supondo que H0 seja verdadeira. Quanto menor essa probabilidade, mais fortes são os motivos para rejeitar H0.
Valor-p e nível de significância
O valor-p é a probabilidade de obter um resultado pelo menos tão extremo quanto o observado, se a hipótese nula for verdadeira. Se p = 0,03, isso significa: se H0 fosse verdadeira (nenhum efeito), tal resultado ou um mais extremo ocorreria em apenas 3% dos casos.
O nível de significância (α) é um limiar escolhido com antecedência, abaixo do qual o valor-p é considerado motivo suficiente para rejeitar H0. O padrão na maioria das pesquisas é α = 0,05 (5%). Na medicina e na ciência é 0,01 ou 0,001. Na análise de negócios às vezes se usa 0,1 para decisões rápidas.
O limiar é escolhido antes da coleta de dados, não depois. Ajustar α a um resultado já obtido é p-hacking, uma forma de manipulação de dados que produz conclusões falso-positivas.
Erros do tipo I e do tipo II
Dois tipos de erros são inevitáveis em qualquer teste estatístico:
Um erro do tipo I (falso positivo) é rejeitar H0 quando ela é de fato verdadeira. "Encontrar um efeito onde não há nenhum". A probabilidade desse erro é igual a α. Com α = 0,05, em média cada 20º resultado significativo é fruto do acaso.
Um erro do tipo II (falso negativo) é não rejeitar H0 quando ela é falsa. "Deixar passar um efeito real". A probabilidade desse erro é β, e 1 - β é chamada de poder estatístico do teste. Quanto maior a amostra, menor o β e maior a chance de detectar um efeito real. Mais sobre a relação com o tamanho da amostra no artigo sobre o tamanho da amostra.
Na prática da pesquisa por questionários, o erro do tipo II costuma ser o mais perigoso: com uma amostra pequena, um efeito real se perde no ruído, e a empresa conclui que "não há melhoria" quando na verdade há.
Como formular hipóteses na pesquisa por questionários
Uma boa hipótese é específica, testável e formulada antes da coleta de dados. Alguns exemplos da prática de pesquisas:
- Comparação de grupos: "A satisfação dos clientes que usam o chat ao vivo é maior do que a dos que entram em contato por telefone" - testada comparando as pontuações médias dos dois grupos.
- Relação entre variáveis: "A frequência de uso do produto se correlaciona positivamente com o NPS" - testada por meio da análise de correlação.
- Mudança ao longo do tempo: "Após a atualização da interface, a taxa de conclusão subiu" - testada comparando os indicadores antes e depois.
Uma hipótese ruim: "Os usuários estão em geral satisfeitos com o produto". Isso não é uma hipótese, mas uma suposição sem um critério preciso. Para transformá-la em testável: "A pontuação média de satisfação ultrapassa 4 de 5 no segmento-alvo".
Qual teste estatístico escolher
O teste é escolhido conforme o tipo de dados e a estrutura da comparação. Para a pesquisa por questionários, os três cenários mais comuns são:
Comparação de dois grupos pelas médias. Por exemplo, a pontuação média de satisfação dos clientes A vs B. Usa-se um teste t para amostras independentes. Condição: os dados estão aproximadamente distribuídos de forma normal ou a amostra é grande o suficiente (n > 30). Se forem comparadas as respostas das mesmas pessoas antes e depois, um teste t pareado.
Comparação de três ou mais grupos. Três regiões, quatro segmentos, cinco produtos. Aqui o teste t não serve: ele não foi pensado para comparações múltiplas. Usa-se a ANOVA (análise de variância). Se a ANOVA mostrar um resultado significativo, testes post hoc adicionais (Tukey, por exemplo) determinam entre quais pares exatamente há diferenças.
Comparação de proporções. "O percentual de clientes satisfeitos no grupo A vs grupo B" ou "A proporção de pessoas que concluíram a pesquisa em duas versões do formulário". Usa-se um teste z para proporções ou um teste de qui-quadrado. O qui-quadrado também serve para testar a independência de duas variáveis categóricas, por exemplo, se o cargo do respondente está relacionado ao seu nível de engajamento.
Testes não paramétricos. Quando os dados não estão distribuídos de forma normal e a amostra é pequena, usam-se equivalentes não paramétricos: o teste de Mann-Whitney em vez do teste t, o teste de Kruskal-Wallis em vez da ANOVA. Eles trabalham com postos em vez de valores e são menos sensíveis a valores atípicos, o que importa nas perguntas de escala com 5-7 graduações.
Análise de poder: planejar antes da coleta de dados
O poder de um teste (1 - β) é a probabilidade de detectar um efeito se ele realmente existir. O nível-alvo padrão é de 80%. Isso significa: quando um efeito existe de fato, o teste o deixará passar em 20% dos casos.
O poder depende de quatro parâmetros: o tamanho da amostra, o nível de significância α, o tamanho do efeito esperado e a variância dos dados. Uma análise de poder permite calcular o tamanho de amostra necessário antes de iniciar o estudo, para que, com o α escolhido e o efeito esperado, o teste tenha poder suficiente.
Um exemplo prático: você espera que um novo onboarding aumente o NPS em média 5 pontos. O desvio padrão do NPS na sua base é de cerca de 20 pontos. Com α = 0,05 e poder de 80% você precisa de cerca de 250 pessoas em cada grupo. Se recrutar 50 em cada, o poder cai para 30% e um efeito real passa despercebido em 70% dos casos. Há uma calculadora de tamanho de amostra disponível nas ferramentas da SurveyNinja.
O teste de hipóteses em testes A/B
Os testes A/B são um dos cenários mais comuns de aplicação do teste de hipóteses. Duas versões (controle e experimental) são exibidas a grupos aleatórios e, em seguida, a métrica-alvo é comparada. H0: "Não há diferença entre as versões". H1: "A versão B é melhor que a versão A".
As condições críticas de um teste A/B correto: atribuição aleatória aos grupos, um tamanho suficiente de cada grupo, um período de teste definido com antecedência e uma única variável alterada. Parar o teste no momento em que o valor-p cai pela primeira vez abaixo de 0,05 é um erro comum: isso aumenta a probabilidade de um erro do tipo I. O teste deve durar até atingir o tamanho de amostra calculado com antecedência.
Exemplo: testar uma hipótese em uma pesquisa de NPS
Uma empresa migrou para um novo onboarding. Hipótese: "O NPS dos usuários que passaram pelo novo onboarding é maior que o dos que passaram pelo antigo". Antes da mudança, o NPS foi medido em 300 usuários - pontuação média de 32. Depois, em 400 usuários, pontuação média de 38. A diferença de 6 pontos parece significativa. Mas é acaso ou um efeito real?
Eles executam um teste t para amostras independentes. Valor-p = 0,04, nível de significância α = 0,05. O valor-p está abaixo do limiar, então H0 é rejeitada. Conclusão: a diferença é estatisticamente significativa e o novo onboarding está associado a um NPS mais alto. O intervalo de confiança da diferença: de +1,2 a +10,8 pontos com probabilidade de 95%.
Se a amostra tivesse sido de 50 pessoas por grupo, o valor-p para a mesma diferença poderia ter sido 0,3, e a conclusão teria sido "nenhum efeito detectado". Não porque não haja, mas porque a amostra pequena não forneceu poder suficiente.
Testes unilaterais e bilaterais
Ao formular H1, é importante definir a direção do teste. Um teste bilateral verifica qualquer diferença em relação a H0: "os grupos diferem" (não importa em que direção). Um teste unilateral verifica uma direção específica: "o grupo A é melhor que o grupo B". Um teste unilateral é mais poderoso quando a direção da hipótese está correta, mas se o efeito acabar indo na outra direção, o teste não o detectará. Por padrão, usa-se o bilateral: ele é mais conservador e mais honesto.
Erros típicos ao testar hipóteses
Formular hipóteses depois de ver os dados. O HARKing (Hypothesizing After the Results are Known) é quando a hipótese é ajustada a um padrão já encontrado. O resultado parece significativo, mas na verdade não foi testado.
Confundir significância estatística e prática. Com uma amostra grande, até um efeito minúsculo será estatisticamente significativo. Uma diferença de 0,3 ponto no NPS com p = 0,001 é estatisticamente significativa, mas praticamente sem sentido. Olhe sempre para o tamanho do efeito, não apenas para o valor-p.
Comparações múltiplas sem correção. Se você testar 20 hipóteses com α = 0,05, uma sairá "significativa" por acaso. Em verificações em massa é preciso uma correção (Bonferroni ou FDR); caso contrário, o número de falsos positivos cresce em proporção ao número de testes.
Ferramentas e SurveyNinja
Para os cálculos, a SurveyNinja oferece um conjunto de calculadoras estatísticas: uma calculadora de valor-p, uma calculadora de significância para A/B e uma calculadora de tamanho de amostra. Antes de lançar uma pesquisa, é útil calcular o tamanho necessário, para que o teste tenha poder suficiente para detectar o efeito esperado.
O gerador de hipóteses baseado em IA ajuda a formular uma hipótese no início de um estudo. Os dados para o teste são coletados por meio de pesquisas com métricas claramente definidas; já na etapa de design da pesquisa é importante decidir qual variável exatamente será testada.
O teste de hipóteses é uma forma formal de distinguir o sinal do ruído. H0 é formulada antes da coleta de dados, o valor-p é comparado com um α escolhido com antecedência e o tamanho do efeito é avaliado separadamente da significância estatística. Sem isso, resultados "significativos" muitas vezes acabam sendo coincidências do acaso.
Publicado: 31 mai 2026
Mike Taylor