Contenidos

Crea tu propia encuesta hoy

Constructor de encuestas gratis y fácil de usar sin límites de respuestas. Comienza a recopilar comentarios en minutos.

Empezar gratis
Logo SurveyNinja

Prueba t (prueba t de Student)

El grupo A valoró el producto con 7,2 puntos, el grupo B — con 6,8. Hay una diferencia. Pero, ¿es significativa? Quizá sea solo ruido aleatorio y, con otra muestra, los números cambiarían de lugar.

La prueba t (prueba t de Student) es una herramienta estadística que responde precisamente a esta pregunta: ¿la diferencia entre dos medias es real, o entra dentro del rango de la fluctuación aleatoria?

Definición

La prueba t (prueba t de Student) es una prueba estadística paramétrica para comprobar la hipótesis de que los valores medios son iguales en uno o dos grupos. Usa el estadístico t, que muestra cuán grande es la diferencia observada entre las medias en relación con la variabilidad de los datos. A partir del estadístico t y de los grados de libertad se calcula un valor p (p-value) — la probabilidad de obtener tal diferencia suponiendo que no la hay en la población. Se aplica a muestras pequeñas (normalmente n < 30) y a datos con distribución normal.

Tres tipos de prueba t

Prueba t de una muestra (One-sample t-test). Comprueba si la media de una muestra difiere de un número dado. Ejemplo: el NPS medio en una muestra es 42. ¿Difiere esto del valor de referencia histórico de 38 de forma estadísticamente significativa? Comparamos una muestra con una constante.

Prueba t de muestras independientes (Independent samples t-test). Compara las medias de dos grupos independientes. Ejemplo: los hombres valoraron la usabilidad de la interfaz con 7,4, las mujeres — con 6,9. ¿Es significativa la diferencia? Los grupos son independientes — personas distintas, no relacionadas entre sí. Es el tipo más frecuente en la investigación con encuestas.

Prueba t pareada (Paired t-test). Compara las medias de las mismas personas en dos condiciones o en dos momentos del tiempo. Ejemplo: los mismos empleados valoraron su satisfacción antes y después de implantar una nueva herramienta. Los grupos son dependientes — son los mismos encuestados. La prueba pareada es más potente que la independiente con el mismo tamaño de muestra, porque elimina la variabilidad entre personas.

Cómo funciona la prueba t

El estadístico t se calcula como la razón entre la diferencia de medias y el error estándar de esa diferencia:

t = (M1 - M2) / SE

Aquí SE (el error estándar de la diferencia) tiene en cuenta la dispersión de los datos en ambos grupos y el tamaño de la muestra. Cuanto mayor es la diferencia entre las medias y menor la dispersión dentro de los grupos, mayor es t. Un t grande significa que la diferencia es difícil de explicar por azar.

A partir del valor de t y del número de grados de libertad (que depende del tamaño de la muestra) se determina el valor p (p-value) — la probabilidad de obtener tal diferencia, o una más extrema, si en realidad no hay ninguna diferencia. El umbral estándar: si p < 0,05, la diferencia se considera estadísticamente significativa.

Ejemplo: t = 2,34, grados de libertad = 58, p = 0,023. Conclusión: la probabilidad de obtener tal diferencia por azar es del 2,3%. Menos del 5% — aceptamos la diferencia como real.

Prueba t vs prueba Z

La prueba t y la prueba Z resuelven una tarea similar — comparar medias — pero se aplican en condiciones distintas.

La prueba t se usa cuando:

  • La muestra es pequeña (normalmente n < 30 en cada grupo)
  • La varianza de la población es desconocida (en la mayoría de las tareas prácticas)

La prueba Z se usa cuando:

  • La muestra es grande (n > 30)
  • La varianza de la población es conocida

En la práctica, con n > 30 los resultados de la prueba t y de la prueba z casi coinciden. La prueba t es la herramienta más universal: funciona correctamente tanto en muestras pequeñas como grandes. Por eso se usa por defecto en la mayoría de los casos de análisis de datos de encuestas.

Ejemplo: una prueba t para comparar dos versiones de onboarding

Una empresa está probando dos variantes de onboarding. 35 usuarios pasaron por la versión A, 35 — por la versión B. Tras el onboarding, cada uno valoró lo fácil que fue empezar en una escala de 1-10.

  • Versión A: media 6,8, desviación estándar 1,9
  • Versión B: media 7,6, desviación estándar 1,7

A simple vista, la diferencia de 0,8 puntos parece significativa. Ejecutamos una prueba t independiente:

  • t = 1,98, grados de libertad = 68
  • p = 0,051

p = 0,051 — justo por encima del umbral de 0,05. Formalmente: la diferencia es estadísticamente no significativa. ¿Qué hacer? No te apresures a concluir "no hay diferencia". Es un resultado límite — quizá la muestra no sea lo bastante grande. Tiene sentido calcular el tamaño del efecto: si es moderado o grande, conviene repetir la prueba con una muestra mayor antes de tomar una decisión.

Supuestos de la prueba t

La prueba t funciona correctamente cuando se cumplen varias condiciones:

Normalidad de la distribución. Los datos de cada grupo deben estar distribuidos de forma aproximadamente normal. Con n > 30 esta condición se vuelve menos crítica gracias al teorema central del límite. Para muestras pequeñas, una violación de la normalidad es motivo para considerar alternativas no paramétricas (la prueba de Mann-Whitney).

Independencia de las observaciones. Cada encuestado responde por su cuenta, sin influir en los demás. Se viola, por ejemplo, si miembros de una misma familia acaban en el mismo grupo.

Homogeneidad de las varianzas (para la prueba t independiente). La dispersión de los datos en los dos grupos debe ser aproximadamente igual. Se comprueba con la prueba de Levene. Si las varianzas difieren significativamente, se usa la variante de Welch (Welch's t-test), que no requiere esta condición y está disponible en la mayoría de los paquetes estadísticos.

Errores típicos al interpretar la prueba t

Confundir la significación estadística con la práctica. p < 0,05 significa que la diferencia no es aleatoria. Pero no significa que sea importante. Una diferencia de 0,3 puntos en el NPS medio puede ser estadísticamente significativa con una muestra grande — y, al mismo tiempo, no tener ningún sentido práctico. Mira siempre el tamaño del efecto (la d de Cohen) junto con el valor p.

Aplicar la prueba t a escalas ordinales sin precaución. Formalmente, la prueba t requiere datos numéricos con intervalos iguales. Una escala de Likert de 1-5 es ordinal. En la práctica, los investigadores a menudo aplican la prueba t a datos de Likert, y esto es aceptable cuando n > 30 y la distribución es moderada. Pero para muestras pequeñas y una asimetría pronunciada es mejor usar pruebas no paramétricas.

Comparaciones múltiples sin corrección. Si comparas 10 pares de grupos con un umbral de p < 0,05, al menos una diferencia significativa aparecerá por azar con una probabilidad de ~40%. Las pruebas t múltiples requieren una corrección de Bonferroni o pasar al análisis de varianza (ANOVA).

Ignorar el tamaño de la muestra. Con n = 10 por grupo, la prueba t tendrá una baja potencia estadística: pueden no detectarse diferencias reales. Calcula de antemano el tamaño de muestra necesario mediante el efecto mínimo detectable.

La prueba t en el análisis de datos de encuestas

En la investigación basada en encuestas, la prueba t se aplica en varios escenarios estándar: comparar puntuaciones entre grupos demográficos (hombres vs mujeres, usuarios nuevos vs experimentados), comparar resultados antes y después de un cambio (la prueba pareada), comparar dos versiones de un producto o de una comunicación en una prueba A/B.

Puedes calcular una prueba t y un valor p en la calculadora de valor p de SurveyNinja — sin necesidad de paquetes estadísticos. Tras exportar los datos de la encuesta, basta con introducir las medias, las desviaciones estándar y los tamaños de los grupos.

La prueba t es la herramienta básica para comprobar diferencias entre dos medias. Las métricas de salida clave son: el estadístico t, el valor p y el tamaño del efecto. El valor p muestra si la diferencia es aleatoria. El tamaño del efecto muestra si es prácticamente significativa. Solo juntos dan el panorama completo.

Preguntas frecuentes

¿Cuándo usar una prueba t y cuándo ANOVA?

La prueba t compara exactamente dos grupos. Si hay tres o más grupos, necesitas ANOVA. Usar varias pruebas t para comparar tres grupos por pares es un error: acumula la probabilidad de un resultado falso positivo. ANOVA comprueba todos los grupos a la vez y gestiona correctamente este riesgo.

¿Qué hacer si el valor p está justo por encima de 0,05?

No te apresures a concluir "no hay diferencias". Comprueba: ¿es suficiente el tamaño de la muestra? Calcula el tamaño del efecto — si es moderado o grande, la muestra puede ser simplemente demasiado pequeña para detectar una diferencia real. p = 0,07 con una muestra pequeña y un efecto grande es una señal para repetir el estudio con una muestra mayor, no una conclusión de que no hay diferencia.

¿Se puede aplicar la prueba t a datos de escala de Likert?

Formalmente, la escala de Likert es ordinal y, en sentido estricto, la prueba t no es aplicable a ella. En la práctica, con n > 30 y una distribución simétrica de las respuestas, la mayoría de los investigadores usan la prueba t — es una norma aceptada. Con muestras pequeñas o una fuerte asimetría es mejor usar la prueba no paramétrica de Mann-Whitney.

¿Qué son los grados de libertad en una prueba t?

Los grados de libertad (df) determinan la forma de la distribución t a partir de la cual se calcula el valor p. Para una prueba t independiente, df ≈ n1 + n2 - 2. Cuanto mayor es la muestra, mayores son los df y más se aproxima la distribución t a la normal. En la práctica no necesitas calcularlo a mano: todas las calculadoras y paquetes estadísticos lo hacen automáticamente.

¿Influye el orden de los grupos en el resultado de la prueba t?

Influye en el signo del estadístico t (positivo o negativo). No influye en el valor p ni en la conclusión sobre la significación. El valor p siempre es el mismo independientemente de si es el grupo A menos el grupo B o al revés. En una prueba bilateral (la variante estándar) se comprueba la presencia de una diferencia en cualquier sentido.

1