ANOVA (Análisis de la Varianza)

Q: ¿En qué se diferencia ANOVA de varias pruebas t?

Una prueba t compara solo dos grupos. Varias pruebas t acumulan la probabilidad de un falso positivo: con tres comparaciones por pares el riesgo de significancia aleatoria sube del 5% al ~14%. ANOVA prueba todos los grupos en una sola prueba, manteniendo el error global en el nivel del 5%.

Q: ¿Qué hacer si los datos violan los supuestos de ANOVA?

Si se viola la normalidad — la prueba de Kruskal-Wallis (análogo no paramétrico). Con varianzas desiguales — Welch ANOVA. Con observaciones dependientes — ANOVA de medidas repetidas. Una violación de la normalidad con n > 30 en cada grupo no es crítica.

Mike Taylor 31 may. 2026 Tiempo de lectura ≈ 10 min

Estás comparando la satisfacción del cliente en tres regiones: Norte — 7.4, Centro — 6.9, Sur — 7.1. ¿Realizar tres pruebas t por separado? Es un error — cada prueba añade un riesgo de falso positivo, y con tres comparaciones la probabilidad de encontrar por azar una diferencia "significativa" sube al 14% en lugar del 5%.

ANOVA (análisis de la varianza) resuelve este problema: prueba todos los grupos a la vez con una sola prueba, controlando correctamente la tasa de error.

Definición

ANOVA (Análisis de la Varianza) — un método estadístico paramétrico para comparar las medias de tres o más grupos. Analiza la relación entre la variabilidad entre grupos y la variabilidad dentro de los grupos. El resultado es un estadístico F y un valor p, que muestran si al menos un grupo difiere significativamente del resto. Cuando el resultado es significativo, requiere pruebas post hoc para determinar qué grupos difieren específicamente.

Por qué no se pueden realizar simplemente varias pruebas t

En cada prueba t, la probabilidad de un falso positivo es del 5% (con un umbral de p < 0.05). Esto significa: en el 5% de las pruebas tratamos por error diferencias aleatorias como reales. Con comparaciones múltiples, estos errores se acumulan.

Si comparas 3 grupos por pares (A-B, A-C, B-C) — tres pruebas t. La probabilidad de al menos una significancia falsa: 1 - 0.95³ ≈ 14%. Con 5 grupos — 10 pares — la probabilidad ya es del 40%. ANOVA prueba todos los grupos a la vez, manteniendo la probabilidad de error global en el nivel del 5%.

Esto se llama el problema de las comparaciones múltiples, y es exactamente lo que ANOVA resuelve en la etapa de prueba inicial.

Cómo funciona ANOVA

La idea de ANOVA es descomponer la variabilidad total de los datos en dos partes:

Variabilidad entre grupos (Between-group variance). Cuánto difieren las medias de los grupos de la media general. Si los grupos realmente son diferentes — esta variabilidad es grande.

Variabilidad dentro de los grupos (Within-group variance). Cuánto difieren las observaciones individuales de la media de su propio grupo. Esto es el "ruido" — la dispersión natural dentro de cada grupo.

El estadístico F — la relación entre estas dos cantidades:

F = Variabilidad entre grupos / Variabilidad dentro de los grupos

Si F está cerca de 1 — las diferencias entre los grupos no superan el ruido habitual. Si F es sustancialmente mayor que 1 — las diferencias son más significativas que la dispersión aleatoria. El valor p se calcula a partir del estadístico F y los grados de libertad. Si p < 0.05 — al menos un grupo difiere significativamente del resto.

ANOVA de un factor y de dos factores

ANOVA de un factor (One-way ANOVA) — comparación de grupos por un solo factor. Ejemplo: una puntuación de satisfacción en tres regiones. Hay un factor — la región. Comprobamos si la región afecta la puntuación.

ANOVA de dos factores (Two-way ANOVA) — análisis simultáneo de dos factores y su interacción. Ejemplo: una puntuación de satisfacción por región Y por tipo de cliente (B2B vs B2C). Puedes comprobar: ¿importa la región? ¿Importa el tipo de cliente? ¿Hay una interacción — es decir, difiere el efecto de la región para los clientes B2B y B2C?

La interacción de factores es una percepción importante que no se puede obtener a partir de dos ANOVA de un factor separados. Por ejemplo: en el Norte, los clientes B2B están más satisfechos que los B2C, mientras que en el Sur es al revés. Este es un patrón de interacción, y un ANOVA de dos factores lo revela.

Pruebas post hoc: quién difiere exactamente

Un ANOVA significativo solo responde a la pregunta "¿hay diferencias entre estos grupos?". No dice qué grupos específicamente difieren entre sí. Para eso necesitas pruebas post hoc (post-hoc tests) — comparaciones por pares con una corrección por multiplicidad.

Las más comunes:

Tukey HSD — la elección estándar con tamaños de grupo iguales y varianzas iguales. Controla la tasa de error en todos los pares de comparaciones.
Bonferroni — un método conservador que divide el umbral de significancia por el número de comparaciones. Sencillo de calcular, pero menos potente.
Games-Howell — se usa con varianzas desiguales o tamaños de grupo desiguales.

Una secuencia típica: ANOVA mostró p = 0.012 (significativo) → post hoc Tukey → resulta que el Norte difiere significativamente del Sur (p = 0.009), pero el Norte y el Centro, el Centro y el Sur — no difieren (p > 0.05).

Ejemplo: ANOVA para comparar valoraciones en cuatro canales de soporte

Una empresa evalúa la calidad del soporte en cuatro canales: chat, teléfono, email y autoservicio. 40 clientes valoraron cada canal en una escala de 1 a 10.

Chat: media 8.1, SD 1.3
Teléfono: media 7.4, SD 1.8
Email: media 6.8, SD 2.1
Autoservicio: media 7.0, SD 1.9

ANOVA de un factor: F(3, 156) = 4.87, p = 0.003. El resultado es significativo — hay diferencias entre los canales.

Post hoc Tukey:

Chat vs Email: p = 0.002 ✓ significativo
Chat vs Autoservicio: p = 0.018 ✓ significativo
Chat vs Teléfono: p = 0.091 — no significativo
Los pares restantes: p > 0.05 — no significativo

Conclusión: el chat es significativamente mejor que el email y el autoservicio, pero no es estadísticamente mejor que el teléfono. Los canales restantes no difieren entre sí. Esta es una conclusión concreta y operativa para la toma de decisiones — dónde dirigir la inversión en la mejora del soporte.

Supuestos de ANOVA

ANOVA funciona correctamente cuando se cumplen condiciones similares a las de la prueba t:

Normalidad de la distribución en cada grupo. Con n > 30 por grupo, una violación de la normalidad no es crítica. Con grupos pequeños — comprobar con la prueba de Shapiro-Wilk.

Homogeneidad de varianzas (homocedasticidad). La dispersión de los datos debe ser aproximadamente la misma en todos los grupos. Se comprueba con la prueba de Levene. Si se viola — usar Welch ANOVA, que no requiere varianzas iguales.

Independencia de las observaciones. Cada participante está en un grupo, las respuestas son independientes entre sí. Si una persona responde bajo varias condiciones — necesitas un ANOVA de medidas repetidas (Repeated Measures ANOVA).

Errores típicos al usar ANOVA

No realizar pruebas post hoc después de un ANOVA significativo. Un F significativo dice "hay algo", pero no "qué exactamente". Sin pruebas post hoc la conclusión es incompleta. A veces resulta que la significancia la crea un par de seis, mientras que los otros cinco están dentro de la norma.

Confundir significancia estadística y práctica. Con una muestra grande, ANOVA detectará una diferencia de 0.2 puntos entre grupos. Esto puede ser estadísticamente significativo y prácticamente carente de sentido. Calcula siempre el tamaño del efecto (eta-cuadrado u omega-cuadrado para ANOVA).

Aplicar un ANOVA de un factor cuando se necesita uno de dos factores. Si tienes dos factores e ignoras uno — pierdes información sobre la interacción. La interacción puede ser el hallazgo más interesante de los datos.

Ignorar una violación de la independencia. Si los mismos encuestados valoran varias condiciones (por ejemplo, tres variantes de diseño), un ANOVA estándar es incorrecto. Necesitas un ANOVA de medidas repetidas — de lo contrario los resultados estarán sesgados.

ANOVA en el análisis de datos de encuestas

En investigaciones basadas en encuestas, ANOVA se usa para comparar puntuaciones entre varios grupos demográficos (cohortes de edad, regiones, puestos), para analizar los resultados de pruebas multivariantes con tres o más variantes, y para comparar métricas de satisfacción entre líneas de producto o canales.

Un ANOVA de dos factores es especialmente útil cuando necesitas entender la interacción de dos variables — por ejemplo, si el tipo de dispositivo (móvil vs escritorio) y el tipo de usuario (nuevo vs experimentado) afectan la puntuación de UX simultáneamente. Puedes calcular el valor p para el estadístico F con la calculadora de valor p de SurveyNinja.

ANOVA es la herramienta adecuada cuando necesitas comparar tres o más grupos. Un resultado significativo dice "hay diferencias", las pruebas post hoc dicen "aquí, exactamente entre quiénes". El tamaño del efecto (eta-cuadrado) traduce la estadística en sentido práctico.

Preguntas frecuentes

¿En qué se diferencia ANOVA de varias pruebas t?

Una prueba t compara solo dos grupos. Varias pruebas t para tres o más grupos acumulan la probabilidad de un falso positivo: con tres comparaciones por pares el riesgo de al menos una significancia aleatoria sube del 5% al ~14%. ANOVA prueba todos los grupos en una sola prueba, manteniendo el error global en el nivel del 5%.

¿Qué hacer después de un ANOVA significativo?

Realizar una prueba post hoc — comparaciones por pares con una corrección por multiplicidad. La elección estándar: Tukey HSD con grupos iguales y varianzas iguales. Games-Howell con varianzas desiguales. La prueba post hoc mostrará qué pares específicos de grupos difieren entre sí.

¿Cuándo usar el ANOVA de medidas repetidas?

Cuando los mismos participantes se miden bajo varias condiciones o en distintos momentos. Por ejemplo: los mismos empleados valoraron la satisfacción antes, justo después y un mes después de los cambios. Un ANOVA estándar es incorrecto en este caso, porque las observaciones son dependientes.

¿Qué es eta-cuadrado y para qué sirve?

Eta-cuadrado (η²) — una medida del tamaño del efecto para ANOVA: la proporción de la variabilidad total de los datos explicada por el factor. Valores: 0.01 — efecto pequeño, 0.06 — medio, 0.14 y más — grande. Sirve para entender la significancia práctica del resultado: ANOVA puede ser significativo pero explicar solo el 2% de la variabilidad — lo cual es prácticamente irrelevante.

¿Qué hacer si los datos violan los supuestos de ANOVA?

Si se viola la normalidad con una muestra pequeña — un análogo no paramétrico: la prueba de Kruskal-Wallis (un reemplazo del ANOVA de un factor). Con varianzas desiguales — Welch ANOVA. Con observaciones dependientes — ANOVA de medidas repetidas o la prueba de Friedman (no paramétrica). Una violación de la normalidad con n > 30 en cada grupo no es crítica — ANOVA es robusto gracias al teorema central del límite.

Publicado: 31 may. 2026

Crea tu propia encuesta hoy