Confiabilidade teste-reteste

Q: Qual intervalo entre as medições devo escolher?

O ideal são 2-4 semanas. Mais curto — o efeito de memória infla a correlação. Mais longo — a característica medida pode mudar de verdade. Para características dinâmicas o intervalo é mais curto, para as estáveis pode ser maior.

Q: Posso realizar a segunda medição em uma amostra diferente?

Não — isso já não é teste-reteste. O teste-reteste clássico exige as mesmas pessoas nas duas medições. Caso contrário, é impossível calcular corretamente a correlação entre respostas pareadas.

Q: O que fazer se a confiabilidade teste-reteste for baixa?

Analisar: é um problema de perguntas específicas ou de toda a escala? Perguntas individuais — reformulá-las ou substituí-las. Toda a escala — talvez o instrumento meça uma característica variável demais. Verifique o contexto entre as medições.

Q: Qual coeficiente usar para diferentes tipos de dados?

Para escalas contínuas — Pearson ou ICC. Para as ordinais — Spearman. Para as nominais — o kappa de Cohen ou a porcentagem de concordância. O ICC é a escolha mais universal.

Q: É preciso verificar o teste-reteste para escalas validadas conhecidas?

Para escalas padrão em sua forma original e em um público comparável — geralmente não. Com uma adaptação substancial ou tradução vale a pena realizar a verificação. A validação não se transfere automaticamente entre contextos.

Mike Taylor 31 mai 2026 Tempo de leitura ≈ 10 min

Você mediu o engajamento dos funcionários — 72 pontos. Uma semana depois, repetiu a mesma pesquisa com as mesmas pessoas — 65.

O que aconteceu? Talvez o engajamento tenha realmente caído. Ou talvez o instrumento seja simplesmente instável e produza um resultado aleatório a cada medição. A confiabilidade teste-reteste responde exatamente a essa pergunta: quando as mesmas pessoas respondem à mesma pesquisa duas vezes, quão semelhantes são os resultados? É a verificação básica de se o seu instrumento mede algo estável.

Definição

Confiabilidade teste-reteste — a propriedade de um instrumento de medição de produzir resultados semelhantes quando o mesmo traço é medido novamente nas mesmas pessoas após certo intervalo de tempo, desde que o traço medido não tenha mudado. É avaliada por meio da correlação entre a primeira e a segunda medição. Um valor alto significa que o instrumento mede uma característica estável, e não ruído aleatório.

Por que a verificação teste-reteste importa

A confiabilidade é uma condição necessária para a validade. Se um instrumento produz resultados instáveis, ele não pode ser válido — mesmo que, em teoria, meça a característica certa. Há pelo menos três motivos para realizar a verificação:

Avaliar o próprio instrumento. Um novo questionário, índice ou escala deve ser verificado quanto à estabilidade antes do uso em massa. Resultados instáveis = não se pode tomar decisões com base neles.

Escolher entre instrumentos. Se você tem várias escalas alternativas para medir o mesmo construto, o teste-reteste é um dos critérios de seleção. Um questionário estável é mais confiável do que um instável.

Interpretar mudanças ao longo do tempo. Quando você compara duas ondas de pesquisa e vê "NPS caiu 5 pontos", precisa entender se isso pode ser uma mudança real ou se simplesmente cabe dentro da instabilidade do instrumento.

O procedimento teste-reteste

Passos a seguir:

1. Selecionar uma amostra. Recomenda-se um mínimo de 30-50 pessoas, idealmente 100+. Devem ser representantes reais do público-alvo da pesquisa, e não "voluntários" abstratos.

2. Realizar a primeira medição. Um procedimento de pesquisa padrão — os respondentes preenchem o questionário em condições normais.

3. Aguardar o intervalo. O ideal é de 2 a 4 semanas. Curto demais (um dia ou dois) — os respondentes lembram suas respostas e as reproduzem de memória, em vez de responder de fato novamente. Longo demais (vários meses) — a característica medida pode mudar de verdade.

4. Realizar a segunda medição. Os mesmos respondentes, o mesmo questionário, as mesmas condições de distribuição. Importante — condições idênticas: não se pode fazer primeiro uma pesquisa on-line e depois uma por telefone.

5. Calcular a correlação. Entre as respostas pareadas (a primeira e a segunda medição de cada respondente). Para escalas contínuas — o coeficiente de Pearson. Para as categóricas — o coeficiente de Spearman ou o kappa de Cohen. Para comparar médias ou índices gerais — o coeficiente de correlação intraclasse (ICC).

Interpretação dos coeficientes

Limiares para a confiabilidade teste-reteste:

r ≥ 0,9 — confiabilidade excelente. O padrão para instrumentos clínicos e decisões de alto risco.
0,8 ≤ r < 0,9 — boa. Adequada para a maioria das pesquisas aplicadas.
0,7 ≤ r < 0,8 — aceitável. O mínimo para um uso sério.
r < 0,7 — baixa. O instrumento precisa ser aprimorado ou não deve ser usado para tomada de decisões.

Os limiares são orientações. Para questionários validados e longos (MBI, Big Five) espera-se 0,8+. Para uma pesquisa de pulso curta de 3 perguntas, uma confiabilidade de 0,7 pode ser aceitável.

Exemplo: verificação de uma escala de satisfação

Uma equipe de RH desenvolveu uma escala de satisfação no trabalho com 8 perguntas. Antes de incorporá-la à pesquisa trimestral, decidiram verificar sua estabilidade.

Amostra: 60 funcionários. Primeira medição na segunda-feira. Repetição — 3 semanas depois. Resultados:

Correlação de Pearson entre as pontuações totais: r = 0,84
Por perguntas individuais: de 0,52 a 0,91
A pergunta "meu escritório é um lugar confortável para trabalhar": r = 0,52 — instável

Conclusão: a escala geral é confiável (0,84 — boa), mas uma pergunta é instável. A decisão: reformular a pergunta problemática ou substituí-la. Após o aprimoramento — outra verificação em uma nova amostra.

O que pode reduzir a confiabilidade teste-reteste

Mudanças reais na característica medida. Nas 3 semanas entre as medições, algo pode ter acontecido: uma reorganização, um novo projeto, uma troca de gestor. Nesse caso, uma correlação baixa não indica um instrumento ruim — reflete uma dinâmica real. Leve em conta o contexto entre as medições.

Um efeito de aprendizagem ou de memória. Os respondentes lembram suas respostas anteriores e as reproduzem automaticamente. Isso infla artificialmente a confiabilidade. O extremo oposto: os respondentes tentam responder "de outra forma" para não se repetir — o que reduz a correlação. Ambos os efeitos são atenuados por um intervalo de 2-4 semanas.

Desatenção ou cansaço. Se um respondente fez a primeira pesquisa com atenção e a segunda "só para terminar", os resultados vão divergir. O controle: avaliar o tempo de preenchimento, excluir os speeders e os desatentos.

Condições de medição instáveis. A primeira medição de manhã, a segunda à noite de uma sexta-feira. A primeira em um ambiente tranquilo, a segunda na correria. As condições devem ser comparáveis.

Formulações gerais ou abstratas demais. Perguntas do tipo "quão satisfeito você está com a vida em geral?" dão respostas menos estáveis do que indicadores comportamentais concretos. As autoavaliações gerais oscilam mais facilmente conforme o humor.

Teste-reteste frente a outros tipos de confiabilidade

O teste-reteste é um de vários tipos de confiabilidade. O panorama completo inclui:

Confiabilidade teste-reteste — estabilidade ao longo do tempo
Consistência interna (alfa de Cronbach) — coerência entre os itens de uma mesma escala
Confiabilidade entre avaliadores — coerência das avaliações de diferentes avaliadores
Confiabilidade de formas paralelas — coerência entre duas versões equivalentes de um questionário

Esses tipos de confiabilidade verificam aspectos diferentes. Um alfa alto não garante um teste-reteste alto (uma escala pode ser coerente, mas instável ao longo do tempo) e vice-versa. Para validar um instrumento, é aconselhável verificar vários tipos.

Erros típicos durante a verificação

Um intervalo curto demais. Realizar a segunda medição após 2 dias lhe dá uma correlação artificialmente inflada graças à memória. O mínimo são 2 semanas.

Condições de medição diferentes. Da primeira vez dentro da pesquisa geral da empresa, da segunda apenas como "teste". Contexto, motivação e atenção diferentes. As condições devem ser o mais idênticas possível.

Uma amostra pequena demais. Uma correlação com 15 pessoas tem um intervalo de confiança amplo — o número pode ser tanto 0,5 quanto 0,9. Para uma estimativa precisa — um mínimo de 30-50, melhor 100+.

Confundi-lo com mudanças reais. Se entre as medições aconteceu algo significativo (uma mudança na empresa, eventos externos), uma correlação baixa pode refletir uma dinâmica real, e não um problema do instrumento. Documente o contexto.

O teste-reteste na prática de pesquisas

Para tarefas aplicadas, uma verificação teste-reteste completa é realizada uma vez, durante o piloto de um novo questionário. Depois o instrumento é usado sem nova verificação — presume-se que sua confiabilidade tenha sido estabelecida.

As exceções são uma mudança substancial de população (um novo país, uma nova indústria) ou a tradução de um questionário para outro idioma. Nesses casos, a confiabilidade precisa ser verificada de novo: o que funcionava com estudantes americanos pode não funcionar com trabalhadores de outro país.

Ao planejar um questionário no SurveyNinja: se você está desenvolvendo uma nova escala — não deixe de incluir uma verificação em uma pequena amostra. Por meio de um estudo piloto você pode verificar simultaneamente o teste-reteste, a consistência interna e a clareza das formulações. Para as escalas Likert e os índices isso é especialmente importante — são justamente eles que mais frequentemente se mostram instáveis sem uma verificação.

A confiabilidade teste-reteste é a verificação de se o seu instrumento mede algo estável, e não ruído aleatório. O procedimento: repetir a pesquisa com as mesmas pessoas após 2-4 semanas, calcular a correlação. Acima de 0,7 — aceitável, acima de 0,8 — boa. Sem essa verificação, quaisquer comparações de ondas de pesquisa são arriscadas: as mudanças podem se revelar um artefato do instrumento.

Perguntas frequentes

Qual intervalo entre as medições devo escolher?

O ideal são 2-4 semanas. Mais curto — o efeito de memória infla a correlação. Mais longo — a característica medida pode mudar de verdade. Para características dinâmicas (humor, cansaço) o intervalo deve ser mais curto; para as estáveis (traços de personalidade) pode ser maior, até 2-3 meses.

Posso realizar a segunda medição em uma amostra diferente?

Não — isso já não é teste-reteste, mas uma verificação da coerência entre amostras diferentes (amostras paralelas). O teste-reteste clássico exige AS MESMAS pessoas nas duas medições. Caso contrário, é impossível calcular corretamente a correlação entre respostas pareadas.

O que fazer se a confiabilidade teste-reteste for baixa?

Analisar: é um problema de perguntas específicas ou de toda a escala? Se for de perguntas individuais — reformulá-las ou substituí-las. Se for de toda a escala — talvez o instrumento meça uma característica variável demais (o humor do dia, e não um traço estável). Verifique também se algo mudou no contexto entre as medições.

Qual coeficiente usar para diferentes tipos de dados?

Para escalas numéricas contínuas (pontos, avaliações) — o coeficiente de Pearson ou o ICC. Para as ordinais (rankings, categorias) — Spearman. Para as nominais (categorias sem ordem, por exemplo, "a opção de resposta escolhida") — o kappa de Cohen ou a porcentagem de concordância. O ICC é a escolha mais universal e serve para a maioria dos casos.

É preciso verificar o teste-reteste para escalas validadas conhecidas?

Para escalas validadas padrão (NPS, CSAT, MBI) em sua forma original e em um público comparável — geralmente não. Mas com uma adaptação substancial (tradução, mudança de formulações, um novo ambiente cultural) vale a pena realizar a verificação, mesmo que a escala base seja conhecida. A validação não se transfere automaticamente entre contextos.

Publicado: 31 mai 2026

Crie sua própria pesquisa hoje