Fiabilidad test-retest
31 may. 2026 Tiempo de lectura ≈ 10 min
Midió el compromiso de los empleados — 72 puntos. Una semana después repitió la misma encuesta con las mismas personas — 65.
¿Qué pasó? Tal vez el compromiso realmente bajó. O tal vez el instrumento es simplemente inestable y arroja un resultado aleatorio en cada medición. La fiabilidad test-retest responde exactamente a esta pregunta: cuando las mismas personas hacen la misma encuesta dos veces, ¿qué tan similares son los resultados? Es la comprobación básica de si su instrumento mide algo estable en absoluto.
Definición
Fiabilidad test-retest — la propiedad de un instrumento de medición de producir resultados similares cuando se vuelve a medir el mismo rasgo en las mismas personas tras cierto intervalo de tiempo, siempre que el rasgo medido no haya cambiado. Se evalúa mediante la correlación entre la primera y la segunda medición. Un valor alto significa que el instrumento mide una característica estable y no ruido aleatorio.
Por qué importa la comprobación test-retest
La fiabilidad es una condición necesaria para la validez. Si un instrumento produce resultados inestables, no puede ser válido — aunque en teoría mida la característica correcta. Hay al menos tres razones para realizar la comprobación:
Evaluar el propio instrumento. Un nuevo cuestionario, índice o escala debe comprobarse en cuanto a estabilidad antes de su uso masivo. Resultados inestables = no se pueden tomar decisiones a partir de ellos.
Elegir entre instrumentos. Si tiene varias escalas alternativas para medir el mismo constructo, el test-retest es uno de los criterios de selección. Un cuestionario estable es más fiable que uno caprichoso.
Interpretar los cambios en el tiempo. Cuando compara dos olas de encuesta y ve "NPS baja 5 puntos", necesita entender si esto puede ser un cambio real o si simplemente entra dentro de la inestabilidad del instrumento.
El procedimiento test-retest
Pasos a seguir:
1. Seleccionar una muestra. Se recomienda un mínimo de 30-50 personas, idealmente 100+. Deben ser representantes reales del público objetivo de la encuesta, no "voluntarios" abstractos.
2. Realizar la primera medición. Un procedimiento de encuesta estándar — los encuestados completan el cuestionario en condiciones normales.
3. Esperar el intervalo. El óptimo es de 2 a 4 semanas. Demasiado corto (un día o dos) — los encuestados recuerdan sus respuestas y las reproducen de memoria en lugar de responder realmente de nuevo. Demasiado largo (varios meses) — la característica medida puede cambiar de verdad.
4. Realizar la segunda medición. Los mismos encuestados, el mismo cuestionario, las mismas condiciones de distribución. Importante — condiciones idénticas: no se puede hacer primero una encuesta en línea y luego una telefónica.
5. Calcular la correlación. Entre las respuestas emparejadas (la primera y la segunda medición de cada encuestado). Para escalas continuas — el coeficiente de Pearson. Para las categóricas — el coeficiente de Spearman o la kappa de Cohen. Para comparar medias o índices generales — el coeficiente de correlación intraclase (ICC).
Interpretación de los coeficientes
Umbrales para la fiabilidad test-retest:
- r ≥ 0,9 — fiabilidad excelente. El estándar para instrumentos clínicos y decisiones de alto riesgo.
- 0,8 ≤ r < 0,9 — buena. Adecuada para la mayoría de las encuestas aplicadas.
- 0,7 ≤ r < 0,8 — aceptable. El mínimo para un uso serio.
- r < 0,7 — baja. El instrumento necesita perfeccionarse o no debe usarse para tomar decisiones.
Los umbrales son orientaciones. Para cuestionarios validados y largos (MBI, Big Five) se espera 0,8+. Para una encuesta de pulso corta de 3 preguntas, una fiabilidad de 0,7 puede ser aceptable.
Ejemplo: comprobación de una escala de satisfacción
Un equipo de RR. HH. desarrolló una escala de satisfacción laboral de 8 preguntas. Antes de incorporarla a la encuesta trimestral, decidieron comprobar su estabilidad.
Muestra: 60 empleados. Primera medición el lunes. Repetición — 3 semanas después. Resultados:
- Correlación de Pearson entre las puntuaciones totales: r = 0,84
- Por preguntas individuales: de 0,52 a 0,91
- La pregunta "mi oficina es un lugar cómodo para trabajar": r = 0,52 — inestable
Conclusión: la escala general es fiable (0,84 — buena), pero una pregunta es inestable. La decisión: reformular la pregunta problemática o reemplazarla. Tras el perfeccionamiento — otra comprobación en una nueva muestra.
Qué puede reducir la fiabilidad test-retest
Cambios reales en la característica medida. En las 3 semanas entre mediciones pudo ocurrir algo: una reorganización, un nuevo proyecto, un cambio de jefe. En este caso una correlación baja no indica un mal instrumento — refleja una dinámica real. Tenga en cuenta el contexto entre mediciones.
Un efecto de aprendizaje o de memoria. Los encuestados recuerdan sus respuestas anteriores y las reproducen automáticamente. Esto infla artificialmente la fiabilidad. El extremo opuesto: los encuestados intentan responder "de otra manera" para no repetirse — lo que reduce la correlación. Ambos efectos se atenúan con un intervalo de 2-4 semanas.
Falta de atención o fatiga. Si un encuestado hizo la primera encuesta con detenimiento y la segunda "solo para terminar", los resultados divergirán. El control: evaluar el tiempo de cumplimentación, excluir a los speeders y a los desatentos.
Condiciones de medición inestables. La primera medición por la mañana, la segunda por la tarde de un viernes. La primera en un entorno tranquilo, la segunda con prisas. Las condiciones deben ser comparables.
Formulaciones demasiado generales o abstractas. Preguntas del tipo "¿qué tan satisfecho está con la vida en general?" dan respuestas menos estables que indicadores conductuales concretos. Las autovaloraciones generales oscilan más fácilmente con el estado de ánimo.
Test-retest frente a otros tipos de fiabilidad
El test-retest es uno de varios tipos de fiabilidad. El panorama completo incluye:
- Fiabilidad test-retest — estabilidad en el tiempo
- Consistencia interna (alfa de Cronbach) — coherencia entre los ítems de una misma escala
- Fiabilidad entre evaluadores — coherencia de las valoraciones de distintos evaluadores
- Fiabilidad de formas paralelas — coherencia entre dos versiones equivalentes de un cuestionario
Estos tipos de fiabilidad comprueban aspectos distintos. Un alfa alto no garantiza un test-retest alto (una escala puede ser coherente pero inestable en el tiempo) y viceversa. Para validar un instrumento es aconsejable comprobar varios tipos.
Errores típicos durante la comprobación
Un intervalo demasiado corto. Realizar la segunda medición tras 2 días le da una correlación artificialmente inflada gracias a la memoria. El mínimo son 2 semanas.
Condiciones de medición diferentes. La primera vez dentro de la encuesta general de la empresa, la segunda solo como "prueba". Contexto, motivación y atención distintos. Las condiciones deben ser lo más idénticas posible.
Una muestra demasiado pequeña. Una correlación sobre 15 personas tiene un intervalo de confianza amplio — la cifra podría ser tanto 0,5 como 0,9. Para una estimación precisa — un mínimo de 30-50, mejor 100+.
Confundirlo con cambios reales. Si entre mediciones ocurrió algo significativo (un cambio en la empresa, eventos externos), una correlación baja puede reflejar una dinámica real y no un problema del instrumento. Documente el contexto.
El test-retest en la práctica de encuestas
Para tareas aplicadas, una comprobación test-retest completa se realiza una vez, durante el pilotaje de un nuevo cuestionario. Después el instrumento se usa sin volver a comprobarlo — se asume que su fiabilidad ha quedado establecida.
Las excepciones son un cambio sustancial de población (un nuevo país, una nueva industria) o la traducción de un cuestionario a otro idioma. En estos casos la fiabilidad debe comprobarse de nuevo: lo que funcionaba con estudiantes estadounidenses puede no funcionar con trabajadores de otro país.
Al planificar un cuestionario en SurveyNinja: si está desarrollando una nueva escala — asegúrese de incluir una comprobación en una muestra pequeña. Mediante un estudio piloto puede comprobar simultáneamente el test-retest, la consistencia interna y la claridad de las formulaciones. Para las escalas Likert y los índices esto es especialmente importante — son precisamente los que más a menudo resultan inestables sin una comprobación.
La fiabilidad test-retest es la comprobación de si su instrumento mide algo estable y no ruido aleatorio. El procedimiento: repetir la encuesta con las mismas personas tras 2-4 semanas, calcular la correlación. Por encima de 0,7 — aceptable, por encima de 0,8 — buena. Sin esta comprobación, cualquier comparación de olas de encuesta es arriesgada: los cambios pueden resultar un artefacto del instrumento.
Preguntas frecuentes
¿Qué intervalo entre mediciones debo elegir?
Lo óptimo son 2-4 semanas. Más corto — el efecto de memoria infla la correlación. Más largo — la característica medida puede cambiar de verdad. Para características dinámicas (estado de ánimo, fatiga) el intervalo debe ser más corto; para las estables (rasgos de personalidad) puede ser mayor, hasta 2-3 meses.
¿Puedo realizar la segunda medición en una muestra diferente?
No — eso ya no es test-retest, sino una comprobación de la coherencia entre muestras distintas (muestras paralelas). El test-retest clásico requiere LAS MISMAS personas en ambas mediciones. De lo contrario es imposible calcular correctamente la correlación entre respuestas emparejadas.
¿Qué hacer si la fiabilidad test-retest es baja?
Analizarlo: ¿es un problema de preguntas concretas o de toda la escala? Si es de preguntas individuales — reformularlas o reemplazarlas. Si es de toda la escala — quizá el instrumento mide una característica demasiado variable (el ánimo del día y no un rasgo estable). Compruebe también si algo cambió en el contexto entre mediciones.
¿Qué coeficiente usar para distintos tipos de datos?
Para escalas numéricas continuas (puntos, valoraciones) — el coeficiente de Pearson o el ICC. Para las ordinales (rangos, categorías) — Spearman. Para las nominales (categorías sin orden, por ejemplo, "la opción de respuesta elegida") — la kappa de Cohen o el porcentaje de acuerdo. El ICC es la opción más universal y se adapta a la mayoría de los casos.
¿Hay que comprobar el test-retest para escalas validadas conocidas?
Para escalas validadas estándar (NPS, CSAT, MBI) en su forma original y en un público comparable — normalmente no. Pero con una adaptación sustancial (traducción, cambio de formulaciones, un nuevo entorno cultural) conviene realizar la comprobación, aunque la escala base sea conocida. La validación no se transfiere automáticamente entre contextos.
Publicado: 31 may. 2026
Mike Taylor