Distribucion normal
31 may. 2026 Tiempo de lectura ≈ 9 min
Un histograma de respuestas en una escala a veces parece una campana: la mayoria de los valores se concentran en el centro y son menos frecuentes hacia los extremos. Esa forma se denomina distribucion normal. No se trata solo de algo "bonito a la vista": de lo cerca que esten tus datos de ella depende a menudo que metodos de analisis puedes usar.
Muchas formulas de intervalos de confianza, pruebas t y regresion se apoyan en el supuesto de normalidad; cuando los datos se apartan mucho de una distribucion normal, algunas conclusiones pueden perder validez o exigir otros metodos.
A la vez, las respuestas de encuestas estan lejos de distribuirse siempre de forma normal: las escalas acotadas (por ejemplo, 1-5), las proporciones de "de acuerdo / en desacuerdo", las valoraciones sesgadas hacia un extremo: todo esto puede producir asimetria o un aspecto "recortado". Por eso es importante entender que es una distribucion normal, cuando se la invoca y como verificar los datos antes de aplicar metodos que dependen de ella.
Que es una distribucion normal en palabras sencillas
Distribucion normal - una curva simetrica en forma de campana: en el centro (en torno a la media) hay mas observaciones, y su proporcion cae suavemente hacia la izquierda y la derecha. Se define mediante dos numeros: la media y la desviacion estandar (que determina cuan "extendida" esta la campana). Una curva asi suele caracterizarse por esto: aproximadamente dos tercios de los valores caen en la banda "media mas menos una desviacion estandar", y la banda "mas menos dos desviaciones" abarca la inmensa mayoria. Varios procedimientos estadisticos se construyen suponiendo que tratamos con datos asi, o cercanos a ellos.
Dicho mas simple: si trazas un histograma de tales datos, obtienes una "colina" simetrica con su cima en el centro. Cuanto mas difieran tus datos de esto (asimetria marcada, dos picos, bordes "recortados"), mas precaucion debes tener con los metodos disenados para la normalidad.
Un ejemplo breve. Considera la pregunta "Califica del 1 al 5": con una distribucion normal verias un pico en el medio (por ejemplo, la mayor cantidad de "3", menos "2" y "4", aun menos "1" y "5") y "colas" simetricas. En encuestas reales suele ser distinto: 5% "1", 10% "2", 15% "3", 35% "4", 35% "5". Eso es un sesgo a la derecha, sin campana, y las formulas disenadas para la normalidad se aplican a tales datos con salvedades o se sustituyen por metodos no parametricos.
Por que importa en las encuestas
- Intervalos de confianza para la media. Un intervalo estrecho alrededor de la media muestral (teniendo en cuenta el error estandar y un multiplicador tabulado) da una estimacion correcta de la incertidumbre solo si la distribucion de la media muestral es cercana a la normal, lo cual, al crecer el tamano de la muestra, lo garantiza el teorema central del limite. En muestras pequenas y con una distribucion muy "irregular" de los datos subyacentes, ese intervalo puede equivocarse de forma notable.
- Comparacion de grupos (pruebas t). Una prueba t de dos muestras y pruebas similares suponen normalidad de la distribucion dentro de los grupos (o un tamano suficientemente grande, en cuyo caso la distribucion de las medias es cercana a la normal de todos modos). Cuando la no normalidad es pronunciada, a veces se usan analogos no parametricos (por ejemplo, Mann-Whitney).
- Regresion. En la regresion lineal clasica se supone que los residuos (errores del modelo) se distribuyen normalmente. Cuando esto se viola gravemente, las conclusiones sobre la significancia de los coeficientes y los intervalos de confianza pueden ser incorrectas; es posible pasar a modelos generalizados o a errores estandar robustos.
En resumen: una distribucion normal no es un objetivo de "hacer los datos bonitos", sino un supuesto de ciertos metodos. Si los datos no encajan en ella, eliges otros metodos, o te apoyas en la asintotica (muestras grandes), o senalas explicitamente las limitaciones.
Cuando la verificacion es especialmente oportuna. Tiene sentido mirar explicitamente la distribucion con una muestra pequena (a grandes rasgos, menos de 30-50 por grupo), al comparar dos grupos en una variable cuantitativa (una prueba t) y antes de construir una regresion lineal. Con muestras grandes y una descripcion simple (medias, proporciones), el teorema central del limite a menudo te "salva": las medias muestrales se comportan de forma normal incluso cuando los datos subyacentes no lo son.
Cuando los datos de una encuesta no suelen ser normales
Escalas acotadas. Las respuestas en una escala 1-5 o 1-10 estan acotadas por arriba y por abajo. Cuando la media esta cerca de 4 o 5, la distribucion a menudo "choca" contra el borde: no hay campana simetrica. Lo mismo ocurre con las proporciones de "si/no" o "de acuerdo/en desacuerdo". Para tales variables, la normalidad es la excepcion mas que la regla.
Sesgo en una direccion. La satisfaccion suele producir un sesgo hacia las valoraciones altas (en su mayoria "4" y "5", pocas "1" y "2"). El histograma es asimetrico: eso no es una distribucion normal. Las escalas de Likert y otras escalas ordinales se comportan a menudo justo asi.
Pocas observaciones. Con una muestra pequena, incluso de una poblacion normal, la distribucion muestral puede verse "irregular"; mientras tanto, las pruebas de normalidad tienen poca potencia. No deberias confiar solo en la prueba: mira el histograma y el significado de la variable.
Por eso los informes de encuestas a menudo indican "se utilizaron metodos robustos ante desviaciones de la normalidad" o "se aplico una prueba no parametrica": esto es precisamente un reconocimiento de que los datos rara vez son perfectamente normales.
Como se verifica la normalidad
Graficos. Un histograma muestra si hay un unico pico en el centro y si las "colas" son simetricas. Un grafico cuantil-cuantil (Q-Q) compara tus datos con una distribucion normal teorica: los puntos a lo largo de una linea recta indican cercania a la normalidad, mientras que una curvatura notable o "colas" hacia un lado indican una desviacion.
Pruebas estadisticas. Shapiro-Wilk, Kolmogorov-Smirnov y pruebas similares responden a la pregunta "se puede considerar la muestra extraida de una poblacion normal". La limitacion: con N grande, la minima discrepancia conduce al rechazo de la normalidad, mientras que con N pequeno las pruebas apenas son sensibles. Tiene sentido apoyarse en los graficos y en la sustancia de la variable. Incluso con un "rechazo" formal de la normalidad por una prueba (por ejemplo, con 500 respuestas), la forma de la distribucion puede seguir siendo aceptable para una prueba t: juzga segun la situacion.
El papel del tamano de la muestra. El teorema central del limite afirma: a medida que crece el tamano de la muestra, la media muestral se comporta cada vez mas cerca de la ley normal, incluso si la cantidad subyacente (por ejemplo, una valoracion en una escala 1-5) no se distribuye asi. Por eso, al calcular intervalos y pruebas para la media con un N solido, el supuesto de normalidad a menudo se considera satisfecho "en el limite", sin una verificacion rigurosa de cada variable.
Por que "normal"
El nombre es historico: se pensaba que muchas cantidades naturales y de medicion (estatura, errores de medicion) se agrupan exactamente asi. En las encuestas y las escalas de encuesta esto no esta garantizado, pero las formulas de significancia estadistica, margen de error e intervalos de confianza todavia suelen usar las propiedades de la distribucion normal. Saber cuando los datos estan cerca de ella y cuando no ayuda a elegir los metodos correctamente y a formular salvedades en el informe.
Errores tipicos
Exigir la normalidad "a toda costa". Los datos de encuestas suelen ser no normales por naturaleza. No hace falta descartar variables ni ajustar transformaciones solo por un grafico bonito: hace falta elegir metodos adecuados (no parametricos, robustos) o apoyarse explicitamente en muestras grandes y en el teorema central del limite.
Confiar solo en la prueba. Una unica prueba de normalidad con N grande casi siempre arrojara un "rechazo", mientras que con N pequeno puede "pasar por alto" una fuerte no normalidad. Mira siempre el histograma y el grafico Q-Q.
Confundir la normalidad de una variable con la normalidad de los residuos. En la regresion verificas la normalidad de los residuos del modelo, no de las variables originales. Los predictores originales pueden estar distribuidos de cualquier manera.
Ignorar la normalidad donde importa. Si construyes un intervalo de confianza para la media en una muestra pequena (por ejemplo, N=25) y los datos estan claramente sesgados o tienen valores atipicos, la formula clasica puede dar un intervalo impreciso. En tales casos son apropiados el bootstrap, los intervalos no parametricos o una nota explicita sobre las limitaciones.
Como se ve esto en SurveyNinja
SurveyNinja no tiene una verificacion de normalidad integrada. Los informes muestran medias y proporciones por pregunta: a partir de ellas solo puedes juzgar la forma de la distribucion de manera aproximada. Para histogramas, graficos Q-Q y pruebas, exportas los datos a CSV/XLSX y los analizas en Excel, R, Python u otro paquete. Si luego construyes intervalos de confianza o una regresion en una herramienta externa, ahi suele ser donde tambien se verifican los supuestos.
Recomendaciones practicas
Para describir la muestra no se requiere normalidad: la media, la mediana, las proporciones y la dispersion se calculan para cualquier dato. La normalidad importa cuando pasas a la inferencia: pruebas, intervalos de confianza, regresion.
Con una muestra pequena y dudas sobre la normalidad, son preferibles los metodos no parametricos, o una declaracion explicita en el informe de que se usaron metodos tolerantes a las desviaciones de la normalidad.
Que escribir en el informe. En la seccion de metodologia basta con una frase: como tuviste en cuenta la forma de la distribucion, por ejemplo, "verificado mediante histograma" o "se usaron metodos que no requieren normalidad estricta". Asi el cliente ve que los supuestos no se ignoraron.
Media, mediana y dispersion. En una campana "ideal" la media coincide con la mediana y la moda, y la desviacion estandar describe la amplitud. Si, en tus datos, la media y la mediana divergen notablemente, eso es una senal de asimetria y de una posible desviacion de la ley normal. Siempre tiene sentido mirar tambien la dispersion: una misma valoracion media puede corresponder a diferentes formas de distribucion. Los detalles, en los articulos sobre estadistica descriptiva y la desviacion estandar.
Una distribucion normal fija los supuestos para algunos metodos estadisticos; en las encuestas, debido a las escalas cortas y a las respuestas sesgadas, los datos a menudo no encajan en ella. Conviene verificar la forma de la distribucion alli donde tus conclusiones dependen de ella y, cuando sea necesario, pasar a procedimientos robustos o no parametricos.
Publicado: 31 may. 2026
Mike Taylor