Conteúdo

Crie sua própria pesquisa hoje

Criador de pesquisas grátis e fácil de usar sem limite de respostas. Comece a coletar feedback em minutos.

Comece grátis
Logo SurveyNinja

Teste t (teste t de Student)

O grupo A avaliou o produto em 7,2 pontos, o grupo B — em 6,8. Há uma diferença. Mas ela é significativa? Talvez seja apenas ruído aleatório e, com outra amostra, os números trocariam de lugar.

O teste t (teste t de Student) é uma ferramenta estatística que responde exatamente a essa pergunta: a diferença entre duas médias é real, ou ela cabe dentro da faixa de flutuação aleatória?

Definição

O teste t (teste t de Student) é um teste estatístico paramétrico para verificar a hipótese de que os valores médios são iguais em um ou dois grupos. Ele usa a estatística t, que mostra o quão grande é a diferença observada entre as médias em relação à variabilidade dos dados. A partir da estatística t e dos graus de liberdade, calcula-se um valor p (p-value) — a probabilidade de obter tal diferença supondo que não exista nenhuma na população. É aplicado a amostras pequenas (geralmente n < 30) e a dados com distribuição normal.

Três tipos de teste t

Teste t de uma amostra (One-sample t-test). Verifica se a média de uma amostra difere de um número dado. Exemplo: o NPS médio em uma amostra é 42. Isso difere do referencial histórico de 38 de forma estatisticamente significativa? Comparamos uma amostra com uma constante.

Teste t de amostras independentes (Independent samples t-test). Compara as médias de dois grupos independentes. Exemplo: os homens avaliaram a usabilidade da interface em 7,4, as mulheres — em 6,9. A diferença é significativa? Os grupos são independentes — pessoas diferentes, não ligadas entre si. É o tipo mais comum na pesquisa com questionários.

Teste t pareado (Paired t-test). Compara as médias das mesmas pessoas em duas condições ou em dois momentos no tempo. Exemplo: os mesmos funcionários avaliaram sua satisfação antes e depois da implantação de uma nova ferramenta. Os grupos são dependentes — são os mesmos respondentes. O teste pareado é mais potente que o independente com o mesmo tamanho de amostra, porque elimina a variabilidade entre as pessoas.

Como funciona o teste t

A estatística t é calculada como a razão entre a diferença das médias e o erro padrão dessa diferença:

t = (M1 - M2) / SE

Aqui o SE (erro padrão da diferença) leva em conta a dispersão dos dados em ambos os grupos e o tamanho da amostra. Quanto maior a diferença entre as médias e menor a dispersão dentro dos grupos, maior é o t. Um t grande significa que a diferença é difícil de explicar pelo acaso.

A partir do valor de t e do número de graus de liberdade (que depende do tamanho da amostra) determina-se o valor p (p-value) — a probabilidade de obter tal diferença, ou uma mais extrema, se na realidade não houver nenhuma diferença. O limiar padrão: se p < 0,05, a diferença é considerada estatisticamente significativa.

Exemplo: t = 2,34, graus de liberdade = 58, p = 0,023. Conclusão: a probabilidade de obter tal diferença por acaso é de 2,3%. Menos de 5% — aceitamos a diferença como real.

Teste t vs teste Z

O teste t e o teste Z resolvem uma tarefa semelhante — comparar médias — mas se aplicam em condições diferentes.

O teste t é usado quando:

  • A amostra é pequena (geralmente n < 30 em cada grupo)
  • A variância da população é desconhecida (na maioria das tarefas práticas)

O teste Z é usado quando:

  • A amostra é grande (n > 30)
  • A variância da população é conhecida

Na prática, com n > 30 os resultados do teste t e do teste z quase coincidem. O teste t é a ferramenta mais universal: funciona corretamente tanto em amostras pequenas quanto grandes. Por isso é usado por padrão na maioria dos casos de análise de dados de questionários.

Exemplo: um teste t para comparar duas versões de onboarding

Uma empresa está testando duas variantes de onboarding. 35 usuários passaram pela versão A, 35 — pela versão B. Após o onboarding, cada um avaliou o quão fácil foi começar numa escala de 1-10.

  • Versão A: média 6,8, desvio padrão 1,9
  • Versão B: média 7,6, desvio padrão 1,7

À primeira vista, a diferença de 0,8 ponto parece significativa. Rodamos um teste t independente:

  • t = 1,98, graus de liberdade = 68
  • p = 0,051

p = 0,051 — logo acima do limiar de 0,05. Formalmente: a diferença é estatisticamente não significativa. O que fazer? Não se apresse em concluir "não há diferença". Esse é um resultado limítrofe — talvez a amostra não seja grande o suficiente. Faz sentido calcular o tamanho do efeito: se for moderado ou grande, vale a pena repetir o teste com uma amostra maior antes de tomar uma decisão.

Pressupostos do teste t

O teste t funciona corretamente quando várias condições são atendidas:

Normalidade da distribuição. Os dados em cada grupo devem estar distribuídos de forma aproximadamente normal. Com n > 30 essa condição torna-se menos crítica graças ao teorema central do limite. Para amostras pequenas, uma violação da normalidade é motivo para considerar alternativas não paramétricas (o teste de Mann-Whitney).

Independência das observações. Cada respondente responde por conta própria, sem influenciar os demais. É violada, por exemplo, se membros de uma mesma família acabam no mesmo grupo.

Homogeneidade das variâncias (para o teste t independente). A dispersão dos dados nos dois grupos deve ser aproximadamente igual. Verifica-se com o teste de Levene. Se as variâncias diferirem significativamente, usa-se a variante de Welch (Welch's t-test), que não exige essa condição e está disponível na maioria dos pacotes estatísticos.

Erros típicos ao interpretar o teste t

Confundir a significância estatística com a prática. p < 0,05 significa que a diferença não é aleatória. Mas não significa que ela seja importante. Uma diferença de 0,3 ponto no NPS médio pode ser estatisticamente significativa com uma amostra grande — e, ao mesmo tempo, não ter nenhum sentido prático. Olhe sempre o tamanho do efeito (o d de Cohen) junto com o valor p.

Aplicar o teste t a escalas ordinais sem cautela. Formalmente, o teste t exige dados numéricos com intervalos iguais. Uma escala Likert de 1-5 é ordinal. Na prática, os pesquisadores muitas vezes aplicam o teste t a dados de Likert, e isso é aceitável quando n > 30 e a distribuição é moderada. Mas para amostras pequenas e assimetria acentuada é melhor usar testes não paramétricos.

Comparações múltiplas sem correção. Se você comparar 10 pares de grupos com um limiar de p < 0,05, pelo menos uma diferença significativa aparecerá por acaso com uma probabilidade de ~40%. Testes t múltiplos exigem uma correção de Bonferroni ou a mudança para a análise de variância (ANOVA).

Ignorar o tamanho da amostra. Com n = 10 por grupo, o teste t terá um baixo poder estatístico: diferenças reais podem não ser detectadas. Calcule de antemão o tamanho de amostra necessário por meio do efeito mínimo detectável.

O teste t na análise de dados de questionários

Em pesquisas baseadas em questionários, o teste t é aplicado em vários cenários padrão: comparar pontuações entre grupos demográficos (homens vs mulheres, usuários novos vs experientes), comparar resultados antes e depois de uma mudança (o teste pareado), comparar duas versões de um produto ou de uma comunicação em um teste A/B.

Você pode calcular um teste t e um valor p na calculadora de valor p da SurveyNinja — sem precisar de pacotes estatísticos. Após exportar os dados do questionário, basta inserir as médias, os desvios padrão e os tamanhos dos grupos.

O teste t é a ferramenta básica para verificar diferenças entre duas médias. As métricas de saída principais são: a estatística t, o valor p e o tamanho do efeito. O valor p mostra se a diferença é aleatória. O tamanho do efeito mostra se ela é praticamente significativa. Só juntos eles dão o quadro completo.

Perguntas frequentes

Quando usar um teste t e quando usar ANOVA?

O teste t compara exatamente dois grupos. Se houver três ou mais grupos, você precisa de ANOVA. Usar vários testes t para comparar três grupos aos pares é um erro: isso acumula a probabilidade de um resultado falso positivo. A ANOVA verifica todos os grupos de uma vez e gerencia corretamente esse risco.

O que fazer se o valor p estiver logo acima de 0,05?

Não se apresse em concluir "não há diferenças". Verifique: o tamanho da amostra é suficiente? Calcule o tamanho do efeito — se for moderado ou grande, a amostra pode ser simplesmente pequena demais para detectar uma diferença real. p = 0,07 com uma amostra pequena e um efeito grande é um sinal para repetir o estudo com uma amostra maior, não uma conclusão de que não há diferença.

É possível aplicar o teste t a dados de escala Likert?

Formalmente, a escala Likert é ordinal e, a rigor, o teste t não é aplicável a ela. Na prática, com n > 30 e uma distribuição simétrica das respostas, a maioria dos pesquisadores usa o teste t — é uma norma aceita. Com amostras pequenas ou forte assimetria é melhor usar o teste não paramétrico de Mann-Whitney.

O que são graus de liberdade em um teste t?

Os graus de liberdade (df) determinam a forma da distribuição t a partir da qual o valor p é calculado. Para um teste t independente, df ≈ n1 + n2 - 2. Quanto maior a amostra, maiores os df e mais a distribuição t se aproxima da normal. Na prática você não precisa calcular à mão: todas as calculadoras e pacotes estatísticos fazem isso automaticamente.

A ordem dos grupos afeta o resultado do teste t?

Ela afeta o sinal da estatística t (positivo ou negativo). Não afeta o valor p nem a conclusão sobre a significância. O valor p é sempre o mesmo, independentemente de ser o grupo A menos o grupo B ou o contrário. Em um teste bilateral (a variante padrão) verifica-se a presença de uma diferença em qualquer direção.

1