Tamaño del efecto

Q: ¿Qué tamaño del efecto se considera suficiente para tomar una decisión?

Depende del coste del cambio y del beneficio potencial. No hay un umbral universal. Para cambios rápidos y gratuitos, incluso un efecto pequeño (d = 0,2) puede justificar la implementación. Define un umbral prácticamente significativo antes de lanzar el estudio.

Q: ¿Hay que calcular el tamaño del efecto cuando el p-valor es no significativo?

Sí. Un p no significativo + un tamaño del efecto grande es una señal de que la muestra es pequeña. Un p no significativo + un tamaño del efecto pequeño es evidencia de la ausencia de diferencias significativas. Sin el tamaño del efecto no se pueden distinguir estos dos casos fundamentalmente diferentes.

Mike Taylor 31 may. 2026 Tiempo de lectura ≈ 11 min

Probaste dos formulaciones de una pregunta en una muestra de 2.000 personas. El p-valor = 0,001 — altamente significativo. Pero la diferencia en las puntuaciones medias es de solo 0,1 puntos sobre 10.

¿Deberías cambiar la formulación? El p-valor dice "sí, esto no es casualidad". El tamaño del efecto dice "pero es insignificantemente pequeño". Sin el tamaño del efecto, la estadística describe si existe una diferencia. Con él, sabes cuánto importa.

Definición

El tamaño del efecto es una medida estandarizada de la magnitud de una diferencia o relación entre variables, independiente del tamaño de la muestra. Muestra la significancia práctica de un resultado: cuán fuertemente un grupo difiere de otro, o cuán pronunciada es la relación entre variables. A diferencia del p-valor, que depende del tamaño de la muestra, el tamaño del efecto caracteriza solo la magnitud del fenómeno en sí. Las medidas más comunes son: la d de Cohen (para la diferencia entre medias), la r de Pearson (para correlaciones) y eta-cuadrado (para ANOVA).

Por qué necesitas el tamaño del efecto si ya tienes el p-valor

El p-valor y el tamaño del efecto responden a preguntas diferentes.

El p-valor responde: "¿Podría esta diferencia haber surgido por azar, suponiendo que en realidad no existe?" Con una muestra grande, el p-valor detectará cualquier diferencia, por pequeña que sea, simplemente porque hay datos suficientes para registrarla. 10.000 personas en una prueba A/B mostrarán una diferencia significativa de 0,05 puntos en el NPS.

El tamaño del efecto responde: "¿Cuán grande es esta diferencia?" No depende del tamaño de la muestra: la misma diferencia real produce el mismo tamaño del efecto con n=50 y con n=5.000. Esto lo hace comparable entre estudios.

Cuatro combinaciones posibles:

p significativo + efecto grande → la diferencia es real e importante
p significativo + efecto pequeño → la diferencia es real, pero prácticamente insignificante
p no significativo + efecto grande → la muestra puede ser demasiado pequeña; conviene repetir con una n mayor
p no significativo + efecto pequeño → lo más probable es que no haya diferencia

Solo la segunda fila es la trampa en la que se cae sin el tamaño del efecto. Las muestras enormes producen resultados significativos a partir de diferencias insignificantes.

La d de Cohen: tamaño del efecto para comparar dos medias

La d de Cohen es la medida de tamaño del efecto más común al comparar dos grupos. Se calcula como la diferencia entre medias dividida por la desviación estándar combinada:

d = (M1 - M2) / SD_pooled

La interpretación de Cohen (1988), que se ha convertido en el estándar:

d = 0,2 — efecto pequeño. Los grupos se solapan en aproximadamente un 85%. En la práctica, casi imperceptible.
d = 0,5 — efecto medio. Solapamiento ~67%. Perceptible al observar con atención.
d = 0,8 — efecto grande. Solapamiento ~53%. Evidente a simple vista.

Importante: los umbrales de Cohen son orientaciones, no reglas rígidas. En medicina, un efecto de d = 0,2 puede ser clínicamente significativo. En una prueba A/B de marketing, d = 0,5 puede no justificar el coste de un cambio. El contexto de la tarea importa más que los umbrales abstractos.

Otras medidas del tamaño del efecto

La r de Pearson — para el análisis de correlación y algunas pruebas no paramétricas. Rango de -1 a +1. Orientaciones: |r| = 0,1 — pequeño, 0,3 — medio, 0,5 — efecto grande.

Eta-cuadrado (η²) — para ANOVA. La proporción de variabilidad de la variable dependiente explicada por el factor. Orientaciones: 0,01 — pequeño, 0,06 — medio, 0,14 — grande. Omega-cuadrado (ω²) es una versión más precisa, menos sesgada en muestras pequeñas.

Odds Ratio y Risk Ratio — para datos categóricos y resultados binarios. Se usan a menudo en investigaciones médicas y sociológicas.

La delta de Glass — una variante de la d para cuando las varianzas de los grupos difieren sustancialmente: se normaliza solo por la desviación estándar del grupo de control, no por la combinada.

Ejemplo: tamaño del efecto en una prueba A/B de la formulación de un CTA

Una empresa prueba dos variantes de una llamada a la acción en una encuesta. Mide la disposición a recomendar (una pregunta NPS, escala 0-10).

Variante A (n=500): media 7,2, SD 2,1
Variante B (n=500): media 7,5, SD 2,0

Prueba t: t = 2,14, p = 0,033 — estadísticamente significativo.

d de Cohen: (7,5 - 7,2) / 2,05 = 0,146 — efecto pequeño.

Conclusión: la diferencia es real (no casual), pero muy pequeña. Una diferencia de 0,3 puntos en una escala de diez puntos difícilmente cambiará los indicadores reales del negocio. La decisión de pasar a la variante B requiere evaluar el coste del cambio: si el cambio es gratuito, se puede implementar. Si requiere recursos significativos, lo más probable es que no se justifique.

El tamaño del efecto y el cálculo del tamaño de la muestra

El tamaño del efecto es un parámetro de entrada clave al planificar el tamaño de la muestra. Antes de lanzar un estudio, hay que responder: ¿cuál es el efecto mínimo que es prácticamente importante para ti?

Si solo te interesa un efecto grande (d ≥ 0,8), basta con una muestra pequeña. Si quieres detectar un efecto pequeño (d = 0,2), necesitas una muestra de 10 a 15 veces mayor con la misma potencia estadística.

Formalmente, esto está ligado al concepto de MDE (efecto mínimo detectable): tú fijas un umbral de significancia práctica, y el cálculo de la muestra determina cuántas personas se necesitan para detectar un efecto de esa magnitud con una potencia dada (normalmente el 80%).

La situación inversa —cuando ya se han recopilado los datos, la prueba es no significativa, pero el efecto es moderado— indica una muestra insuficiente. No es "no hay resultado", es "no tuvimos datos suficientes para registrarlo".

Errores típicos al trabajar con el tamaño del efecto

Ignorar el tamaño del efecto cuando el p-valor es significativo. Esto es exactamente lo que hace la mayoría de los investigadores prácticos. Una prueba significativa + una d sin calcular = un análisis incompleto. Añadir una línea al informe ("d de Cohen = 0,18, efecto pequeño") es un pequeño esfuerzo con gran valor analítico.

Aplicar mecánicamente los umbrales de Cohen. "d = 0,2 es pequeño, por lo tanto sin importancia" es una simplificación. El contexto determina la interpretación. Una pequeña mejora de la conversión con una audiencia de millones = millones de dólares. Una pequeña reducción del dolor en pacientes = clínicamente significativo. Un efecto pequeño no es sinónimo de uno sin importancia.

Comparar tamaños del efecto de estudios que usan medidas diferentes. d = 0,5 y r = 0,5 no son lo mismo. Existe una fórmula de conversión entre ellos, pero no se pueden comparar directamente. En un metanálisis, todos los efectos se llevan a una única métrica.

No indicar un intervalo de confianza para el tamaño del efecto. Como cualquier estimación basada en una muestra, la d tiene un margen de error. Un intervalo de confianza de d = [0,12; 0,68] es mucho más informativo que una estimación puntual de d = 0,4. Con una muestra pequeña, los intervalos son muy amplios: esta es información importante sobre la precisión de la estimación.

El tamaño del efecto en la investigación con encuestas

En la investigación con encuestas, el tamaño del efecto es especialmente importante al comparar puntuaciones entre segmentos de audiencia, analizar cambios en los indicadores a lo largo del tiempo y realizar pruebas A/B de preguntas o formatos. La significancia estadística sin el tamaño del efecto es un panorama incompleto, especialmente cuando la muestra es grande.

Para una comprobación rápida de la significancia y el cálculo de los parámetros básicos del efecto, utiliza la calculadora de significancia de pruebas A/B de SurveyNinja. Calcula el p-valor y ayuda a evaluar si la muestra es suficiente para detectar el efecto deseado.

El tamaño del efecto traduce la estadística a un sentido práctico. El p-valor responde a la pregunta "¿es esto casual?". El tamaño del efecto responde "¿esto importa?". Un análisis completo requiere ambos: la significancia sin el tamaño del efecto es como saber que existe una diferencia, pero no saber cuán grande es.

Preguntas frecuentes

¿En qué se diferencia la d de Cohen de la diferencia entre medias?

La diferencia entre medias depende de la escala de medición. Una diferencia de 2 puntos en una escala de 1-10 y una diferencia de 2 puntos en una escala de 1-100 son efectos completamente distintos en magnitud. La d de Cohen estandariza la diferencia por la desviación estándar, haciéndola comparable entre distintas escalas y estudios.

¿Qué tamaño del efecto se considera suficiente para tomar una decisión?

Depende del contexto: el coste del cambio, el beneficio potencial y el nivel basal del indicador. No hay un umbral universal. Para cambios rápidos y gratuitos, incluso un efecto pequeño (d = 0,2) puede justificar la implementación. Para los costosos, se requiere un efecto moderado o grande. Define un umbral prácticamente significativo antes de lanzar el estudio, no después.

¿Hay que calcular el tamaño del efecto cuando el p-valor es no significativo?

Sí, y es especialmente importante. Un p no significativo + un tamaño del efecto grande es una señal de que la muestra es pequeña. Un p no significativo + un tamaño del efecto pequeño es evidencia de que realmente no hay diferencia o de que es insignificante. Sin el tamaño del efecto no se pueden distinguir estos dos casos fundamentalmente diferentes.

¿Cómo se calcula la d de Cohen manualmente?

Resta una media de la otra y divide por la desviación estándar combinada. SD_pooled = √[(SD1² + SD2²) / 2] para muestras iguales. Para muestras desiguales, una media ponderada de las varianzas: √[((n1-1)·SD1² + (n2-1)·SD2²) / (n1+n2-2)]. El signo de la d muestra la dirección del efecto; su valor absoluto, su magnitud.

¿Se pueden comparar los tamaños del efecto entre distintos estudios?

Sí, esta es una de las principales ventajas de las medidas estandarizadas. Por eso precisamente el tamaño del efecto se usa en los metanálisis: los resultados de decenas de estudios se llevan a una única escala y se agregan. La condición clave es usar la misma medida o convertir correctamente entre ellas.

Publicado: 31 may. 2026

Crea tu propia encuesta hoy