Confiabilidade teste-reteste
31 mai 2026 Tempo de leitura ≈ 10 min
Você mediu o engajamento dos funcionários — 72 pontos. Uma semana depois, repetiu a mesma pesquisa com as mesmas pessoas — 65.
O que aconteceu? Talvez o engajamento tenha realmente caído. Ou talvez o instrumento seja simplesmente instável e produza um resultado aleatório a cada medição. A confiabilidade teste-reteste responde exatamente a essa pergunta: quando as mesmas pessoas respondem à mesma pesquisa duas vezes, quão semelhantes são os resultados? É a verificação básica de se o seu instrumento mede algo estável.
Definição
Confiabilidade teste-reteste — a propriedade de um instrumento de medição de produzir resultados semelhantes quando o mesmo traço é medido novamente nas mesmas pessoas após certo intervalo de tempo, desde que o traço medido não tenha mudado. É avaliada por meio da correlação entre a primeira e a segunda medição. Um valor alto significa que o instrumento mede uma característica estável, e não ruído aleatório.
Por que a verificação teste-reteste importa
A confiabilidade é uma condição necessária para a validade. Se um instrumento produz resultados instáveis, ele não pode ser válido — mesmo que, em teoria, meça a característica certa. Há pelo menos três motivos para realizar a verificação:
Avaliar o próprio instrumento. Um novo questionário, índice ou escala deve ser verificado quanto à estabilidade antes do uso em massa. Resultados instáveis = não se pode tomar decisões com base neles.
Escolher entre instrumentos. Se você tem várias escalas alternativas para medir o mesmo construto, o teste-reteste é um dos critérios de seleção. Um questionário estável é mais confiável do que um instável.
Interpretar mudanças ao longo do tempo. Quando você compara duas ondas de pesquisa e vê "NPS caiu 5 pontos", precisa entender se isso pode ser uma mudança real ou se simplesmente cabe dentro da instabilidade do instrumento.
O procedimento teste-reteste
Passos a seguir:
1. Selecionar uma amostra. Recomenda-se um mínimo de 30-50 pessoas, idealmente 100+. Devem ser representantes reais do público-alvo da pesquisa, e não "voluntários" abstratos.
2. Realizar a primeira medição. Um procedimento de pesquisa padrão — os respondentes preenchem o questionário em condições normais.
3. Aguardar o intervalo. O ideal é de 2 a 4 semanas. Curto demais (um dia ou dois) — os respondentes lembram suas respostas e as reproduzem de memória, em vez de responder de fato novamente. Longo demais (vários meses) — a característica medida pode mudar de verdade.
4. Realizar a segunda medição. Os mesmos respondentes, o mesmo questionário, as mesmas condições de distribuição. Importante — condições idênticas: não se pode fazer primeiro uma pesquisa on-line e depois uma por telefone.
5. Calcular a correlação. Entre as respostas pareadas (a primeira e a segunda medição de cada respondente). Para escalas contínuas — o coeficiente de Pearson. Para as categóricas — o coeficiente de Spearman ou o kappa de Cohen. Para comparar médias ou índices gerais — o coeficiente de correlação intraclasse (ICC).
Interpretação dos coeficientes
Limiares para a confiabilidade teste-reteste:
- r ≥ 0,9 — confiabilidade excelente. O padrão para instrumentos clínicos e decisões de alto risco.
- 0,8 ≤ r < 0,9 — boa. Adequada para a maioria das pesquisas aplicadas.
- 0,7 ≤ r < 0,8 — aceitável. O mínimo para um uso sério.
- r < 0,7 — baixa. O instrumento precisa ser aprimorado ou não deve ser usado para tomada de decisões.
Os limiares são orientações. Para questionários validados e longos (MBI, Big Five) espera-se 0,8+. Para uma pesquisa de pulso curta de 3 perguntas, uma confiabilidade de 0,7 pode ser aceitável.
Exemplo: verificação de uma escala de satisfação
Uma equipe de RH desenvolveu uma escala de satisfação no trabalho com 8 perguntas. Antes de incorporá-la à pesquisa trimestral, decidiram verificar sua estabilidade.
Amostra: 60 funcionários. Primeira medição na segunda-feira. Repetição — 3 semanas depois. Resultados:
- Correlação de Pearson entre as pontuações totais: r = 0,84
- Por perguntas individuais: de 0,52 a 0,91
- A pergunta "meu escritório é um lugar confortável para trabalhar": r = 0,52 — instável
Conclusão: a escala geral é confiável (0,84 — boa), mas uma pergunta é instável. A decisão: reformular a pergunta problemática ou substituí-la. Após o aprimoramento — outra verificação em uma nova amostra.
O que pode reduzir a confiabilidade teste-reteste
Mudanças reais na característica medida. Nas 3 semanas entre as medições, algo pode ter acontecido: uma reorganização, um novo projeto, uma troca de gestor. Nesse caso, uma correlação baixa não indica um instrumento ruim — reflete uma dinâmica real. Leve em conta o contexto entre as medições.
Um efeito de aprendizagem ou de memória. Os respondentes lembram suas respostas anteriores e as reproduzem automaticamente. Isso infla artificialmente a confiabilidade. O extremo oposto: os respondentes tentam responder "de outra forma" para não se repetir — o que reduz a correlação. Ambos os efeitos são atenuados por um intervalo de 2-4 semanas.
Desatenção ou cansaço. Se um respondente fez a primeira pesquisa com atenção e a segunda "só para terminar", os resultados vão divergir. O controle: avaliar o tempo de preenchimento, excluir os speeders e os desatentos.
Condições de medição instáveis. A primeira medição de manhã, a segunda à noite de uma sexta-feira. A primeira em um ambiente tranquilo, a segunda na correria. As condições devem ser comparáveis.
Formulações gerais ou abstratas demais. Perguntas do tipo "quão satisfeito você está com a vida em geral?" dão respostas menos estáveis do que indicadores comportamentais concretos. As autoavaliações gerais oscilam mais facilmente conforme o humor.
Teste-reteste frente a outros tipos de confiabilidade
O teste-reteste é um de vários tipos de confiabilidade. O panorama completo inclui:
- Confiabilidade teste-reteste — estabilidade ao longo do tempo
- Consistência interna (alfa de Cronbach) — coerência entre os itens de uma mesma escala
- Confiabilidade entre avaliadores — coerência das avaliações de diferentes avaliadores
- Confiabilidade de formas paralelas — coerência entre duas versões equivalentes de um questionário
Esses tipos de confiabilidade verificam aspectos diferentes. Um alfa alto não garante um teste-reteste alto (uma escala pode ser coerente, mas instável ao longo do tempo) e vice-versa. Para validar um instrumento, é aconselhável verificar vários tipos.
Erros típicos durante a verificação
Um intervalo curto demais. Realizar a segunda medição após 2 dias lhe dá uma correlação artificialmente inflada graças à memória. O mínimo são 2 semanas.
Condições de medição diferentes. Da primeira vez dentro da pesquisa geral da empresa, da segunda apenas como "teste". Contexto, motivação e atenção diferentes. As condições devem ser o mais idênticas possível.
Uma amostra pequena demais. Uma correlação com 15 pessoas tem um intervalo de confiança amplo — o número pode ser tanto 0,5 quanto 0,9. Para uma estimativa precisa — um mínimo de 30-50, melhor 100+.
Confundi-lo com mudanças reais. Se entre as medições aconteceu algo significativo (uma mudança na empresa, eventos externos), uma correlação baixa pode refletir uma dinâmica real, e não um problema do instrumento. Documente o contexto.
O teste-reteste na prática de pesquisas
Para tarefas aplicadas, uma verificação teste-reteste completa é realizada uma vez, durante o piloto de um novo questionário. Depois o instrumento é usado sem nova verificação — presume-se que sua confiabilidade tenha sido estabelecida.
As exceções são uma mudança substancial de população (um novo país, uma nova indústria) ou a tradução de um questionário para outro idioma. Nesses casos, a confiabilidade precisa ser verificada de novo: o que funcionava com estudantes americanos pode não funcionar com trabalhadores de outro país.
Ao planejar um questionário no SurveyNinja: se você está desenvolvendo uma nova escala — não deixe de incluir uma verificação em uma pequena amostra. Por meio de um estudo piloto você pode verificar simultaneamente o teste-reteste, a consistência interna e a clareza das formulações. Para as escalas Likert e os índices isso é especialmente importante — são justamente eles que mais frequentemente se mostram instáveis sem uma verificação.
A confiabilidade teste-reteste é a verificação de se o seu instrumento mede algo estável, e não ruído aleatório. O procedimento: repetir a pesquisa com as mesmas pessoas após 2-4 semanas, calcular a correlação. Acima de 0,7 — aceitável, acima de 0,8 — boa. Sem essa verificação, quaisquer comparações de ondas de pesquisa são arriscadas: as mudanças podem se revelar um artefato do instrumento.
Perguntas frequentes
Qual intervalo entre as medições devo escolher?
O ideal são 2-4 semanas. Mais curto — o efeito de memória infla a correlação. Mais longo — a característica medida pode mudar de verdade. Para características dinâmicas (humor, cansaço) o intervalo deve ser mais curto; para as estáveis (traços de personalidade) pode ser maior, até 2-3 meses.
Posso realizar a segunda medição em uma amostra diferente?
Não — isso já não é teste-reteste, mas uma verificação da coerência entre amostras diferentes (amostras paralelas). O teste-reteste clássico exige AS MESMAS pessoas nas duas medições. Caso contrário, é impossível calcular corretamente a correlação entre respostas pareadas.
O que fazer se a confiabilidade teste-reteste for baixa?
Analisar: é um problema de perguntas específicas ou de toda a escala? Se for de perguntas individuais — reformulá-las ou substituí-las. Se for de toda a escala — talvez o instrumento meça uma característica variável demais (o humor do dia, e não um traço estável). Verifique também se algo mudou no contexto entre as medições.
Qual coeficiente usar para diferentes tipos de dados?
Para escalas numéricas contínuas (pontos, avaliações) — o coeficiente de Pearson ou o ICC. Para as ordinais (rankings, categorias) — Spearman. Para as nominais (categorias sem ordem, por exemplo, "a opção de resposta escolhida") — o kappa de Cohen ou a porcentagem de concordância. O ICC é a escolha mais universal e serve para a maioria dos casos.
É preciso verificar o teste-reteste para escalas validadas conhecidas?
Para escalas validadas padrão (NPS, CSAT, MBI) em sua forma original e em um público comparável — geralmente não. Mas com uma adaptação substancial (tradução, mudança de formulações, um novo ambiente cultural) vale a pena realizar a verificação, mesmo que a escala base seja conhecida. A validação não se transfere automaticamente entre contextos.
Publicado: 31 mai 2026
Mike Taylor