Contenidos

Crea tu propia encuesta hoy

Constructor de encuestas gratis y fácil de usar sin límites de respuestas. Comienza a recopilar comentarios en minutos.

Empezar gratis
Logo SurveyNinja

MDE (Minimum Detectable Effect, efecto mínimo detectable)

Lanzaste un test A/B sobre la redacción de una pregunta. Una semana después: 200 respuestas, una diferencia del 3% en conversión, p = 0.31 — no significativo. Vuelves atrás. Pero espera: ¿podía tu muestra siquiera detectar una diferencia del 3% de entrada?

Con 200 respuestas, el efecto mínimo detectable es de alrededor del 10%. No encontraste un resultado no porque no exista, sino porque el test no tenía la potencia para encontrarlo. El MDE es la frontera por debajo de la cual tu test está ciego por definición.

Definición

MDE (Minimum Detectable Effect, efecto mínimo detectable) es el menor tamaño de efecto que una prueba estadística puede detectar con niveles dados de significancia (α) y potencia (1-β) para un tamaño de muestra fijo. Es un parámetro clave al planificar tests A/B y estudios: si el efecto esperado es menor que el MDE, lo más probable es que el test no muestre un resultado significativo aunque el efecto exista realmente.

Por qué importa el MDE

El MDE resuelve un problema fundamental del diseño de un estudio: debes decidir de antemano qué efecto es prácticamente importante detectar y asegurarte de que la muestra sea lo bastante grande para ello.

Sin MDE, ocurre uno de dos escenarios:

Escenario 1: muy pocos datos. Detienes el test con una muestra insuficiente. Un efecto real del 5% no se detecta porque el MDE para tu muestra es del 12%. La conclusión "sin diferencia" es errónea. La conclusión correcta es: "no tuvimos datos suficientes para detectar un efecto menor del 12%".

Escenario 2: demasiados datos. Recoges 50.000 respuestas para un test donde bastarían 500. Se desperdician recursos, y un test con 50.000 detectará diferencias estadísticamente significativas pero prácticamente irrelevantes del 0,1%.

El MDE ayuda a encontrar el equilibrio: recoger exactamente los datos suficientes para detectar precisamente el efecto que importa para la decisión.

Cómo se relaciona el MDE con la potencia del test y el nivel de significancia

El MDE depende de tres parámetros del diseño del test:

α (nivel de significancia) — la probabilidad de un falso positivo (encontrar un efecto donde no lo hay). Estándar: α = 0.05. Con un umbral más estricto (α = 0.01), el mismo MDE requiere una muestra mayor.

β (probabilidad de error de tipo II) — la probabilidad de no detectar un efecto que existe realmente. Potencia del test = 1 - β. Estándar: 80% de potencia (β = 0.20). Con un 90% de potencia necesitas aproximadamente un 35% más de datos.

n (tamaño de muestra) — el número de observaciones. Cuanto mayor sea n, menor será el efecto que puedes detectar. MDE ∝ 1/√n: para duplicar la sensibilidad, aumenta la muestra cuatro veces.

Estos tres parámetros están relacionados: fija dos cualesquiera y el tercero queda determinado automáticamente. En la práctica se fijan α y la potencia, y luego se calcula el n necesario para un MDE dado o se calcula el MDE para un n existente.

MDE para proporciones: cálculo e interpretación

El caso más frecuente en los tests A/B es comparar proporciones (conversiones, porcentajes de respuesta, proporción de promotores).

Una fórmula aproximada del MDE para comparar dos proporciones:

MDE = (z_α/2 + z_β) × √(2 × p̄ × (1-p̄) / n)

Donde p̄ es la proporción media entre los grupos, z_α/2 = 1.96 (para α=0.05), z_β = 0.84 (para una potencia del 80%) y n es el tamaño de cada grupo.

Ejemplo: una conversión base del 30%, con 200 personas por grupo:

MDE = (1.96 + 0.84) × √(2 × 0.3 × 0.7 / 200) = 2.8 × √(0.0021) = 2.8 × 0.0458 ≈ 0.128

MDE ≈ 12,8 puntos porcentuales. Un test con esta muestra detectará solo diferencias del 30% al 42,8% (o hasta el 17,2%). Si el efecto real es de 5 pp, este test no lo encontrará.

Ejemplo: planificar un test A/B de un formato de encuesta

Un equipo prueba dos versiones de la pantalla de bienvenida de una encuesta. La métrica es la proporción de personas que empiezan la encuesta (click-through rate). El CTR actual = 45%.

Pregunta: "¿Cuántas impresiones necesitamos para detectar una mejora del CTR de al menos 5 pp — del 45% al 50%?"

Usamos el cálculo inverso (de MDE → n):

n = 2 × p̄ × (1-p̄) × ((z_α/2 + z_β) / MDE)²

n = 2 × 0.475 × 0.525 × (2.8 / 0.05)² = 0.4988 × 3136 ≈ 1564

Necesitamos aproximadamente 1.564 impresiones por variante — unas 3.128 impresiones en total. Con un tráfico de 500 impresiones al día, el test duraría ~6 días. Es realista. Si quisiéramos detectar una diferencia de 2 pp, necesitaríamos ~9.800 impresiones por variante, es decir, casi un mes. Es posible que tal efecto sea demasiado pequeño para justificar el coste.

MDE relativo vs absoluto

El MDE se puede expresar de dos maneras, y es importante no confundirlas:

MDE absoluto — la diferencia en unidades de medida. "Detectaremos un cambio de conversión de al menos 5 puntos porcentuales" (del 30% al 35%).

MDE relativo — el cambio como porcentaje del valor base. "Detectaremos un cambio de al menos el 10% del valor actual". Con una conversión base del 30%, eso son 3 puntos porcentuales (30% × 10% = 3 pp).

El MDE relativo es cómodo para comparar tests con bases distintas, pero puede inducir a error. Una mejora del 10% sobre una conversión del 0,5% es del 0,55%, algo extremadamente difícil de detectar. Aclara siempre a qué MDE te refieres.

MDE al medir medias

Para puntuaciones numéricas (puntuación media de satisfacción, NPS medio), el MDE se expresa en unidades de la escala y depende de la desviación estándar de los datos. Cuanto mayor sea la dispersión de las respuestas, más difícil será detectar un efecto pequeño.

Una referencia mediante la d de Cohen: MDE = d × SD. Si SD = 2.0 y quieres detectar un efecto medio (d = 0.5), entonces MDE = 0.5 × 2.0 = 1,0 punto. Para un efecto pequeño (d = 0.2), MDE = 0,4 puntos, lo que requiere una muestra significativamente mayor.

Errores típicos al trabajar con el MDE

No calcular el MDE antes de lanzar el test. El error más común. El test se lanza "a ojo", se recogen datos hasta el primer resultado significativo o hasta el fin de la semana — y se acaba con potencia insuficiente o con una estimación puntual inflada del efecto (sesgo del ganador por detención temprana).

Confundir el MDE con el efecto esperado. El MDE es el umbral de sensibilidad del test. El efecto real puede ser mayor o menor. Si el efecto esperado es igual al MDE, la potencia del test es exactamente del 80%: en el 20% de los casos el test lo pasará por alto. Para una detección fiable conviene planificar un MDE algo por debajo del efecto esperado.

Detener el test antes de tiempo al primer resultado significativo. Si miras el p-valor varias veces mientras se acumulan los datos, la probabilidad de un falso positivo aumenta. Fija el tamaño de muestra y la duración del test de antemano — y cíñete al plan independientemente de los resultados intermedios.

Ignorar la significancia práctica al elegir el MDE. Fijar un MDE del 0,1% porque "cuanto más preciso, mejor" es un error. La muestra crecerá cientos de veces, mientras que un efecto detectado del 0,1% no influirá en ninguna decisión real. El MDE debe corresponder al umbral de significancia práctica: ¿qué mejora mínima justifica el cambio?

MDE en los tests A/B de encuestas

En los tests A/B de formatos de encuesta, el MDE se usa para: comparar la completion rate de dos versiones de un cuestionario, evaluar la diferencia en la response rate con distintas redacciones de la invitación, y medir el impacto del orden de las preguntas o del diseño sobre la conversión.

Antes de lanzar el test: determina qué mejora mínima justifica el cambio → calcula la muestra necesaria → asegúrate de que el tráfico permita reunirla en un tiempo razonable. Para el cálculo, usa la calculadora de significancia de tests A/B de SurveyNinja — calcula el tamaño de muestra necesario a partir de un MDE dado y los parámetros de potencia.

El MDE no es una limitación del test, sino una herramienta de planificación honesta. Conociendo el MDE de antemano, tomas una decisión informada: este test puede detectar el efecto que me importa, o no. Lanzar un test sin calcular el MDE es como conducir a una reunión sin saber si tienes suficiente gasolina.

Preguntas frecuentes

¿Cómo elijo el MDE correcto para un test?

Parte de la lógica de negocio: ¿qué mejora mínima de la métrica justifica el coste del cambio? Si implantar una nueva variante cuesta 200.000, y cada punto porcentual de conversión aporta 50.000, el efecto mínimo justificado es de 4 pp. Ese es tu MDE. Las matemáticas te dirán cuántos datos necesitas para detectarlo.

¿Qué hacer si no se puede reunir la muestra necesaria en un tiempo razonable?

Tres opciones: aumentar el MDE (aceptar que solo interesa un efecto más fuerte), bajar la potencia del 80% al 70% (más arriesgado, pero requiere menos datos), o renunciar al test y decidir según el juicio experto. Un compromiso siempre es mejor que un test con potencia notoriamente insuficiente — eso crea una falsa sensación de decisión fundamentada.

¿Se puede cambiar el MDE después de lanzar el test?

No — es un error estadístico llamado p-hacking o HARKing. Cambiar el MDE o el tamaño de muestra tras ver los datos viola las garantías del nivel de significancia. Si quieres reconsiderar el diseño — detén el test actual y lanza uno nuevo con nuevos parámetros desde cero.

¿Cómo se relaciona el MDE con la potencia del test?

El MDE y la potencia son dos caras de un mismo parámetro. Con una muestra fija y α: bajar el MDE (detectar un efecto menor) = bajar la potencia. Aumentar la potencia (pasar por alto un efecto real con menos frecuencia) = aumentar la muestra. El estándar es un 80% de potencia con α = 0.05. Esto significa: un test con una muestra correctamente calculada detectará un efecto real igual al MDE en el 80% de los casos.

¿El MDE se aplica solo a los tests A/B?

No. El MDE es un concepto universal para cualquier prueba estadística: comparar grupos en una encuesta, medir el cambio de un indicador entre olas de un estudio, estimar una correlación. En todo lugar donde haya que determinar de antemano qué efecto mínimo es importante detectar y cuántos datos hacen falta para ello.

1