Tamanho do efeito
31 mai 2026 Tempo de leitura ≈ 10 min
Você testou duas formulações de uma pergunta em uma amostra de 2.000 pessoas. O p-valor = 0,001 — altamente significativo. Mas a diferença nas pontuações médias é de apenas 0,1 ponto em 10.
Vale a pena mudar a formulação? O p-valor diz "sim, isso não é por acaso". O tamanho do efeito diz "mas é insignificantemente pequeno". Sem o tamanho do efeito, a estatística descreve se uma diferença existe. Com ele, você sabe o quanto ela importa.
Definição
O tamanho do efeito é uma medida padronizada da magnitude de uma diferença ou relação entre variáveis, independente do tamanho da amostra. Mostra a significância prática de um resultado: o quanto um grupo difere de outro, ou o quão pronunciada é a relação entre as variáveis. Diferentemente do p-valor, que depende do tamanho da amostra, o tamanho do efeito caracteriza apenas a magnitude do próprio fenômeno. As medidas mais comuns são: o d de Cohen (para a diferença entre médias), o r de Pearson (para correlações) e o eta-quadrado (para ANOVA).
Por que você precisa do tamanho do efeito se já tem o p-valor
O p-valor e o tamanho do efeito respondem a perguntas diferentes.
O p-valor responde: "Essa diferença poderia ter surgido por acaso, supondo que na realidade ela não existe?" Com uma amostra grande, o p-valor detectará qualquer diferença, por menor que seja, simplesmente porque há dados suficientes para registrá-la. 10.000 pessoas em um teste A/B mostrarão uma diferença significativa de 0,05 ponto no NPS.
O tamanho do efeito responde: "Quão grande é essa diferença?" Ele não depende do tamanho da amostra: a mesma diferença real produz o mesmo tamanho do efeito com n=50 e com n=5.000. Isso o torna comparável entre estudos.
Quatro combinações possíveis:
- p significativo + efeito grande → a diferença é real e importante
- p significativo + efeito pequeno → a diferença é real, mas praticamente insignificante
- p não significativo + efeito grande → a amostra pode ser pequena demais; vale repetir com um n maior
- p não significativo + efeito pequeno → o mais provável é que não haja diferença
Apenas a segunda linha é a armadilha em que se cai sem o tamanho do efeito. Amostras enormes produzem resultados significativos a partir de diferenças insignificantes.
O d de Cohen: tamanho do efeito para comparar duas médias
O d de Cohen é a medida de tamanho do efeito mais comum ao comparar dois grupos. É calculado como a diferença entre médias dividida pelo desvio padrão combinado:
d = (M1 - M2) / SD_pooled
A interpretação de Cohen (1988), que se tornou o padrão:
- d = 0,2 — efeito pequeno. Os grupos se sobrepõem em cerca de 85%. Na prática, quase imperceptível.
- d = 0,5 — efeito médio. Sobreposição ~67%. Perceptível ao observar com atenção.
- d = 0,8 — efeito grande. Sobreposição ~53%. Evidente a olho nu.
Importante: os limiares de Cohen são orientações, não regras rígidas. Na medicina, um efeito de d = 0,2 pode ser clinicamente significativo. Em um teste A/B de marketing, d = 0,5 pode não justificar o custo de uma mudança. O contexto da tarefa importa mais do que limiares abstratos.
Outras medidas do tamanho do efeito
O r de Pearson — para a análise de correlação e alguns testes não paramétricos. Faixa de -1 a +1. Orientações: |r| = 0,1 — pequeno, 0,3 — médio, 0,5 — efeito grande.
Eta-quadrado (η²) — para ANOVA. A proporção da variabilidade da variável dependente explicada pelo fator. Orientações: 0,01 — pequeno, 0,06 — médio, 0,14 — grande. Ômega-quadrado (ω²) é uma versão mais precisa, menos enviesada em amostras pequenas.
Odds Ratio e Risk Ratio — para dados categóricos e desfechos binários. Usados frequentemente em pesquisas médicas e sociológicas.
O delta de Glass — uma variante do d para quando as variâncias dos grupos diferem substancialmente: é normalizado apenas pelo desvio padrão do grupo de controle, não pelo combinado.
Exemplo: tamanho do efeito em um teste A/B da formulação de um CTA
Uma empresa testa duas variantes de uma chamada para ação em uma pesquisa. Mede a disposição para recomendar (uma pergunta NPS, escala 0-10).
- Variante A (n=500): média 7,2, SD 2,1
- Variante B (n=500): média 7,5, SD 2,0
Teste t: t = 2,14, p = 0,033 — estatisticamente significativo.
d de Cohen: (7,5 - 7,2) / 2,05 = 0,146 — efeito pequeno.
Conclusão: a diferença é real (não aleatória), mas muito pequena. Uma diferença de 0,3 ponto em uma escala de dez pontos dificilmente mudará os indicadores reais do negócio. A decisão de migrar para a variante B exige avaliar o custo da mudança: se a mudança for gratuita, pode ser implementada. Se exigir recursos significativos, o mais provável é que não se justifique.
O tamanho do efeito e o cálculo do tamanho da amostra
O tamanho do efeito é um parâmetro de entrada fundamental ao planejar o tamanho da amostra. Antes de iniciar um estudo, é preciso responder: qual é o efeito mínimo que é praticamente importante para você?
Se você se interessa apenas por um efeito grande (d ≥ 0,8), uma amostra pequena é suficiente. Se quiser detectar um efeito pequeno (d = 0,2), precisa de uma amostra de 10 a 15 vezes maior com o mesmo poder estatístico.
Formalmente, isso está ligado ao conceito de MDE (efeito mínimo detectável): você define um limiar de significância prática, e o cálculo da amostra determina quantas pessoas são necessárias para detectar um efeito dessa magnitude com um poder dado (normalmente 80%).
A situação inversa — quando os dados já foram coletados, o teste é não significativo, mas o efeito é moderado — indica uma amostra insuficiente. Isso não é "não há resultado", é "não tivemos dados suficientes para registrá-lo".
Erros típicos ao trabalhar com o tamanho do efeito
Ignorar o tamanho do efeito quando o p-valor é significativo. É exatamente isso que a maioria dos pesquisadores práticos faz. Um teste significativo + um d não calculado = uma análise incompleta. Acrescentar uma linha ao relatório ("d de Cohen = 0,18, efeito pequeno") é um pequeno esforço com grande valor analítico.
Aplicar mecanicamente os limiares de Cohen. "d = 0,2 é pequeno, portanto sem importância" é uma simplificação. O contexto determina a interpretação. Uma pequena melhoria na conversão com uma audiência de milhões = milhões de dólares. Uma pequena redução da dor em pacientes = clinicamente significativo. Um efeito pequeno não é sinônimo de um sem importância.
Comparar tamanhos do efeito de estudos que usam medidas diferentes. d = 0,5 e r = 0,5 não são a mesma coisa. Existe uma fórmula de conversão entre eles, mas não se pode compará-los diretamente. Em uma metanálise, todos os efeitos são reduzidos a uma única métrica.
Não indicar um intervalo de confiança para o tamanho do efeito. Como qualquer estimativa baseada em amostra, o d tem uma margem de erro. Um intervalo de confiança de d = [0,12; 0,68] é muito mais informativo do que uma estimativa pontual de d = 0,4. Com uma amostra pequena, os intervalos são muito amplos: essa é uma informação importante sobre a precisão da estimativa.
O tamanho do efeito em pesquisas com questionários
Em pesquisas com questionários, o tamanho do efeito é especialmente importante ao comparar pontuações entre segmentos de audiência, analisar mudanças nos indicadores ao longo do tempo e realizar testes A/B de perguntas ou formatos. A significância estatística sem o tamanho do efeito é um quadro incompleto, especialmente quando a amostra é grande.
Para uma verificação rápida da significância e o cálculo dos parâmetros básicos do efeito, use a calculadora de significância de testes A/B da SurveyNinja. Ela calcula o p-valor e ajuda a avaliar se a amostra é suficiente para detectar o efeito desejado.
O tamanho do efeito traduz a estatística em sentido prático. O p-valor responde à pergunta "isso é por acaso?". O tamanho do efeito responde "isso importa?". Uma análise completa requer ambos: a significância sem o tamanho do efeito é como saber que existe uma diferença, mas não saber o quão grande ela é.
Perguntas frequentes
Qual a diferença entre o d de Cohen e a diferença entre médias?
A diferença entre médias depende da escala de medição. Uma diferença de 2 pontos em uma escala de 1-10 e uma diferença de 2 pontos em uma escala de 1-100 são efeitos completamente diferentes em magnitude. O d de Cohen padroniza a diferença pelo desvio padrão, tornando-a comparável entre diferentes escalas e estudos.
Que tamanho do efeito é considerado suficiente para tomar uma decisão?
Depende do contexto: o custo da mudança, o benefício potencial e o nível basal do indicador. Não há um limiar universal. Para mudanças rápidas e gratuitas, até um efeito pequeno (d = 0,2) pode justificar a implementação. Para as custosas, exige-se um efeito moderado ou grande. Defina um limiar praticamente significativo antes de iniciar o estudo, não depois.
É preciso calcular o tamanho do efeito quando o p-valor é não significativo?
Sim, e é especialmente importante. Um p não significativo + um tamanho do efeito grande é um sinal de que a amostra é pequena. Um p não significativo + um tamanho do efeito pequeno é evidência de que realmente não há diferença ou de que ela é desprezível. Sem o tamanho do efeito não é possível distinguir esses dois casos fundamentalmente diferentes.
Como calcular o d de Cohen manualmente?
Subtraia uma média da outra e divida pelo desvio padrão combinado. SD_pooled = √[(SD1² + SD2²) / 2] para amostras iguais. Para amostras desiguais, uma média ponderada das variâncias: √[((n1-1)·SD1² + (n2-1)·SD2²) / (n1+n2-2)]. O sinal do d mostra a direção do efeito; seu valor absoluto, a magnitude.
É possível comparar tamanhos do efeito entre estudos diferentes?
Sim, essa é uma das principais vantagens das medidas padronizadas. É justamente por isso que o tamanho do efeito é usado nas metanálises: os resultados de dezenas de estudos são reduzidos a uma única escala e agregados. A condição fundamental é usar a mesma medida ou converter corretamente entre elas.
Publicado: 31 mai 2026
Mike Taylor