Prueba de hipótesis
31 may. 2026 Tiempo de lectura ≈ 10 min
Cambiaste la redaccion de una pregunta de la encuesta - y la tasa de respuesta subio del 23% al 27%. ¿Es una mejora real o solo suerte de la muestra?
Reformulaste un boton en una landing page - y la conversion subio 2 puntos porcentuales. ¿Señal o ruido? La prueba de hipótesis es la herramienta estadística que te permite responder a esta pregunta no con un vago "parece que sí", sino con un nivel de confianza concreto.
Definición
La prueba de hipótesis es un procedimiento estadístico que permite aceptar o rechazar una suposición sobre una población a partir de datos de una muestra. El procedimiento formaliza la pregunta "¿esto es aleatorio o no?" mediante una hipótesis nula (H0), una hipótesis alternativa (H1), un nivel de significación y un valor p. Si el valor p cae por debajo del umbral de significación elegido, la hipótesis nula se rechaza.
Hipótesis nula y alternativa
Toda prueba comienza con el planteamiento de dos hipótesis. La hipótesis nula (H0) es la suposición de que no hay efecto ni diferencia. "La nueva redacción de la pregunta no afecta la tasa de respuesta", "No hay diferencia de satisfacción entre los grupos". H0 es lo que la estadística intenta refutar.
La hipótesis alternativa (H1) es la suposición de que existe un efecto. "La nueva redacción aumenta la tasa de respuesta", "El grupo A está más satisfecho que el grupo B". H1 se acepta si los datos aportan evidencia suficiente contra H0.
Un matiz importante: la estadística nunca "demuestra" H1. Solo muestra cuán improbables son los datos observados, suponiendo que H0 es verdadera. Cuanto menor sea esa probabilidad, más fundamento hay para rechazar H0.
Valor p y nivel de significación
El valor p es la probabilidad de obtener un resultado al menos tan extremo como el observado, si la hipótesis nula es verdadera. Si p = 0,03, significa: si H0 fuera verdadera (sin ningún efecto), tal resultado o uno más extremo ocurriría solo en el 3% de los casos.
El nivel de significación (α) es un umbral elegido de antemano, por debajo del cual el valor p se considera fundamento suficiente para rechazar H0. El estándar en la mayoría de las investigaciones es α = 0,05 (5%). En medicina y ciencia es 0,01 o 0,001. En analítica de negocio a veces se usa 0,1 para decisiones rápidas.
El umbral se elige antes de recoger los datos, no después. Ajustar α a un resultado ya obtenido es p-hacking, una forma de manipulación de datos que produce conclusiones falsas positivas.
Errores de tipo I y de tipo II
Dos tipos de errores son inevitables en cualquier prueba estadística:
Un error de tipo I (falso positivo) es rechazar H0 cuando en realidad es verdadera. "Encontrar un efecto donde no lo hay". La probabilidad de este error es igual a α. Con α = 0,05, en promedio cada 20.º resultado significativo se debe al azar.
Un error de tipo II (falso negativo) es no rechazar H0 cuando es falsa. "Pasar por alto un efecto real". La probabilidad de este error es β, y 1 - β se denomina potencia estadística de la prueba. Cuanto mayor sea la muestra, menor será β y mayor la probabilidad de detectar un efecto real. Más sobre la relación con el tamaño de la muestra en el artículo sobre el tamaño de la muestra.
En la práctica de la investigación por encuestas, el error de tipo II suele ser el más peligroso: con una muestra pequeña, un efecto real se pierde en el ruido y la empresa concluye que "no hay mejora" cuando en realidad la hay.
Cómo formular hipótesis en la investigación por encuestas
Una buena hipótesis es específica, comprobable y se plantea antes de recoger los datos. Algunos ejemplos de la práctica de encuestas:
- Comparación de grupos: "La satisfacción de los clientes que usan el chat en vivo es mayor que la de quienes contactan por teléfono" - se comprueba comparando las puntuaciones medias de los dos grupos.
- Relación entre variables: "La frecuencia de uso del producto se correlaciona positivamente con el NPS" - se comprueba mediante el análisis de correlación.
- Cambio en el tiempo: "Tras la actualización de la interfaz, la tasa de finalización subió" - se comprueba comparando los indicadores antes y después.
Una mala hipótesis: "Los usuarios están en general satisfechos con el producto". Eso no es una hipótesis, sino una suposición sin un criterio preciso. Para convertirla en comprobable: "La puntuación media de satisfacción supera 4 de 5 en el segmento objetivo".
Qué prueba estadística elegir
La prueba se elige según el tipo de datos y la estructura de la comparación. Para la investigación por encuestas, los tres escenarios más habituales son:
Comparación de dos grupos por sus medias. Por ejemplo, la puntuación media de satisfacción de los clientes A vs B. Se usa una prueba t para muestras independientes. Condición: los datos están aproximadamente distribuidos de forma normal o la muestra es lo bastante grande (n > 30). Si se comparan las respuestas de las mismas personas antes y después, una prueba t pareada.
Comparación de tres o más grupos. Tres regiones, cuatro segmentos, cinco productos. Aquí la prueba t no sirve: no está diseñada para comparaciones múltiples. Se usa ANOVA (análisis de varianza). Si ANOVA muestra un resultado significativo, pruebas post hoc adicionales (Tukey, por ejemplo) determinan entre qué pares exactamente hay diferencias.
Comparación de proporciones. "El porcentaje de clientes satisfechos en el grupo A vs el grupo B" o "La proporción de personas que completaron la encuesta en dos versiones del formulario". Se usa una prueba z para proporciones o una prueba de chi-cuadrado. El chi-cuadrado también sirve para comprobar la independencia de dos variables categóricas, por ejemplo, si el puesto del encuestado está relacionado con su nivel de implicación.
Pruebas no paramétricas. Cuando los datos no están distribuidos de forma normal y la muestra es pequeña, se usan equivalentes no paramétricos: la prueba de Mann-Whitney en lugar de la prueba t, la prueba de Kruskal-Wallis en lugar de ANOVA. Trabajan con rangos en vez de valores y son menos sensibles a los valores atípicos, lo que importa en las preguntas de escala con 5-7 grados.
Análisis de potencia: planificar antes de recoger los datos
La potencia de una prueba (1 - β) es la probabilidad de detectar un efecto si realmente existe. El nivel objetivo estándar es del 80%. Esto significa: cuando un efecto existe de verdad, la prueba lo pasará por alto en el 20% de los casos.
La potencia depende de cuatro parámetros: el tamaño de la muestra, el nivel de significación α, el tamaño del efecto esperado y la varianza de los datos. Un análisis de potencia permite calcular el tamaño de muestra necesario antes de iniciar el estudio, para que, con el α elegido y el efecto esperado, la prueba tenga suficiente potencia.
Un ejemplo práctico: esperas que un nuevo onboarding suba el NPS en promedio 5 puntos. La desviación estándar del NPS en tu base es de unos 20 puntos. Con α = 0,05 y una potencia del 80% necesitas unas 250 personas en cada grupo. Si reclutas 50 en cada uno, la potencia baja al 30% y un efecto real pasa desapercibido en el 70% de los casos. Hay una calculadora de tamaño de muestra disponible en las herramientas de SurveyNinja.
La prueba de hipótesis en las pruebas A/B
Las pruebas A/B son uno de los escenarios más habituales de aplicación de la prueba de hipótesis. Se muestran dos versiones (control y experimental) a grupos aleatorios y luego se compara la métrica objetivo. H0: "No hay diferencia entre las versiones". H1: "La versión B es mejor que la versión A".
Las condiciones críticas de una prueba A/B correcta: asignación aleatoria a los grupos, un tamaño suficiente de cada grupo, un periodo de prueba definido de antemano y una única variable modificada. Detener la prueba en el momento en que el valor p baja por primera vez de 0,05 es un error frecuente: aumenta la probabilidad de un error de tipo I. La prueba debe durar hasta alcanzar el tamaño de muestra calculado de antemano.
Ejemplo: probar una hipótesis en una encuesta de NPS
Una empresa cambió a un nuevo onboarding. Hipótesis: "El NPS de los usuarios que pasaron por el nuevo onboarding es mayor que el de quienes pasaron por el antiguo". Antes del cambio se midió el NPS en 300 usuarios - puntuación media de 32. Después, en 400 usuarios, puntuación media de 38. La diferencia de 6 puntos parece significativa. Pero ¿es azar o un efecto real?
Lanzan una prueba t para muestras independientes. Valor p = 0,04, nivel de significación α = 0,05. El valor p está por debajo del umbral, así que H0 se rechaza. Conclusión: la diferencia es estadísticamente significativa y el nuevo onboarding se asocia con un NPS más alto. El intervalo de confianza de la diferencia: de +1,2 a +10,8 puntos con una probabilidad del 95%.
Si la muestra hubiera sido de 50 personas por grupo, el valor p para la misma diferencia podría haber sido 0,3, y la conclusión habría sido "no se detectó efecto". No porque no lo haya, sino porque la muestra pequeña no aportó suficiente potencia.
Pruebas de una y dos colas
Al formular H1 es importante definir la dirección de la prueba. Una prueba de dos colas comprueba cualquier diferencia respecto a H0: "los grupos difieren" (sin importar en qué dirección). Una prueba de una cola comprueba una dirección concreta: "el grupo A es mejor que el grupo B". Una prueba de una cola es más potente cuando la dirección de la hipótesis es correcta, pero si el efecto resulta ir en la otra dirección, la prueba no lo detectará. Por defecto se usa la de dos colas: es más conservadora y más honesta.
Errores típicos al probar hipótesis
Formular hipótesis después de ver los datos. El HARKing (Hypothesizing After the Results are Known) es cuando la hipótesis se ajusta a un patrón ya encontrado. El resultado parece significativo, pero en realidad no se ha comprobado.
Confundir significación estadística y práctica. Con una muestra grande, incluso un efecto minúsculo será estadísticamente significativo. Una diferencia de 0,3 puntos en el NPS con p = 0,001 es estadísticamente significativa, pero prácticamente carece de sentido. Mira siempre el tamaño del efecto, no solo el valor p.
Comparaciones múltiples sin corrección. Si compruebas 20 hipótesis con α = 0,05, una resultará "significativa" por azar. En las comprobaciones masivas hace falta una corrección (Bonferroni o FDR); de lo contrario, el número de falsos positivos crece en proporción al número de pruebas.
Herramientas y SurveyNinja
Para los cálculos, SurveyNinja ofrece un conjunto de calculadoras estadísticas: una calculadora de valor p, una calculadora de significación para A/B y una calculadora de tamaño de muestra. Antes de lanzar una encuesta conviene calcular el tamaño necesario, para que la prueba tenga suficiente potencia para detectar el efecto esperado.
El generador de hipótesis basado en IA ayuda a formular una hipótesis al inicio de un estudio. Los datos para la prueba se recogen mediante encuestas con métricas claramente definidas; ya en la etapa de diseño de la investigación es importante decidir qué variable exactamente se va a comprobar.
La prueba de hipótesis es una forma formal de distinguir la señal del ruido. H0 se plantea antes de recoger los datos, el valor p se compara con un α elegido de antemano y el tamaño del efecto se evalúa por separado de la significación estadística. Sin esto, los resultados "significativos" a menudo resultan ser coincidencias del azar.
Publicado: 31 may. 2026
Mike Taylor