Medidas de dispersión
"Un río con profundidad media de medio metro ahogó a un hombre." — chiste estadístico clásico.
Qué vas a aprender en este capítulo
Las medidas de tendencia central te dicen "el centro" de los datos. Pero dos conjuntos pueden tener la misma media y ser completamente distintos. En este capítulo aprendés a medir qué tan dispersos están los datos: rango, varianza, desviación estándar, cuartiles e IQR. Vas a entender por qué la desviación estándar es la medida más útil de dispersión, por qué hay dos versiones (muestral y poblacional), y cómo detectar valores atípicos sistemáticamente.
3.1 La idea: la media no cuenta toda la historia
💡 Intuición
Comparemos dos grupos de notas:
- Grupo A: . Media = 7.
- Grupo B: . Media = 7.
La media es la misma — pero los grupos son muy distintos. En A todo el mundo sacó 7. En B, alguien casi reprueba y otro sacó nota muy alta.
Las medidas de dispersión cuantifican qué tan separados están los datos del centro. Sin ellas, dos distribuciones radicalmente distintas pueden parecer iguales.
Tres formas clásicas:
- Rango: cuánto va del menor al mayor.
- Varianza y desviación estándar: dispersión "promedio" alrededor de la media.
- Rango intercuartil (IQR): dispersión del 50% central, ignorando colas.
Cada una tiene sus virtudes. La desviación estándar es la más usada en estadística inferencial; el IQR es lo más robusto frente a outliers.
3.2 Rango
📐 Fundamento
Definición. .
Ejemplos:
- . Rango = .
- . Rango = .
Ventaja: trivial de calcular.
Desventaja: solo usa dos datos, los extremos. Ignora todo lo de en medio. Si tenés y , ambos tienen rango 100, pero las distribuciones son distintísimas.
Por eso el rango se reporta como una nota al pie, no como medida principal.
3.3 Varianza y desviación estándar
📐 Fundamento
La idea: medir cuánto se separa cada dato de la media, y promediar esas separaciones.
Primer intento — desviaciones simples:
Pero esto siempre da cero — recordá la propiedad de la media. Las desviaciones positivas y negativas se cancelan.
Solución: elevar al cuadrado.
Eso es la varianza. La elevación al cuadrado:
- Elimina los signos negativos.
- Castiga más a los datos lejanos (un dato 2 veces más lejos contribuye 4 veces más).
- Tiene buenas propiedades matemáticas para teoremas posteriores.
Problema con la varianza: las unidades quedan al cuadrado. Si los datos están en metros, la varianza está en metros². No es interpretable directamente.
Solución: desviación estándar. La raíz cuadrada de la varianza:
Vuelve a las unidades originales. Es la medida estándar de dispersión.
Interpretación. es algo así como la "distancia típica" de un dato a la media. Si la altura promedio en una población es 170 cm con cm, la mayoría de la gente está dentro de cm.
(Bajo distribución normal, ~68% de los datos cae a 1 de la media, ~95% a 2, ~99.7% a 3. Lo veremos en estadística inferencial.)
3.4 Muestral vs. poblacional — la división por
📐 Fundamento
Hay dos versiones de varianza, y la diferencia confunde mucho.
Varianza poblacional (cuando los datos son toda la población):
Varianza muestral (cuando los datos son una muestra que estima la población):
¿Por qué ? Cuando estimás con , perdés "un grado de libertad": una vez fijados valores y la media, el último está determinado. Dividir por subestima la verdadera varianza; dividir por corrige el sesgo.
Esto se llama corrección de Bessel. La demostración rigurosa sale en estadística inferencial — por ahora, memorizá la regla:
- Datos = toda la población → divide por .
- Datos = muestra → divide por .
En la práctica, casi siempre usás porque casi siempre tenés muestras. Cuando dudes, usá .
Símbolos.
- — parámetros poblacionales (lo "verdadero", desconocido).
- — estadísticos muestrales (lo que calculaste a partir de los datos).
Las calculadoras y software (Excel, Python) tienen las dos versiones — buscá STDEV.S (muestral) y STDEV.P (poblacional). Si ponés la fórmula equivocada, el resultado solo difiere en porcentaje pequeño con grande, pero conceptualmente importa.
3.5 Cómo calcular varianza paso a paso
🛠️ En la práctica
Método directo.
Datos: (n = 5, asumimos muestra).
- Media: .
- Desviaciones: .
- Desviaciones al cuadrado: .
- Suma: .
- Dividir por : .
- Desviación estándar: .
Fórmula computacionalmente más estable (cuando hacés cuentas a mano):
Para los mismos datos:
- .
- .
- . ✓
En Python (módulo statistics):
import statistics
datos = [4, 8, 6, 5, 3]
print(statistics.mean(datos)) # 5.2
print(statistics.stdev(datos)) # 1.9235 (muestral, divide por n-1)
print(statistics.pstdev(datos)) # 1.7204 (poblacional, divide por n)
3.6 Cuartiles, percentiles y el IQR
📐 Fundamento
La mediana divide los datos en dos mitades. Si dividimos cada mitad otra vez por la mitad, obtenemos los cuartiles:
- (primer cuartil): el 25% de los datos están por debajo.
- (segundo cuartil): la mediana, 50%.
- (tercer cuartil): el 75% de los datos están por debajo.
Percentiles generalizan la idea: es el valor por debajo del cual cae el % de los datos.
- , , .
Rango intercuartil (IQR):
Mide la dispersión del 50% central de los datos. Es robusto — no se afecta por outliers en las colas.
Cómo calcular cuartiles.
- Ordená los datos.
- Mediana (): valor central.
- : mediana de la mitad inferior (los datos antes de la mediana).
- : mediana de la mitad superior.
Ejemplo. (n = 9).
- (valor central).
- Mitad inferior: . .
- Mitad superior: . .
- IQR = .
Detalle: distintos software calculan cuartiles con fórmulas levemente diferentes. Las diferencias son menores; usá la convención del libro y el software de manera consistente.
3.7 Detectando outliers — la regla 1.5·IQR
🛠️ En la práctica
Una regla muy popular para detectar outliers sistemáticamente:
Un dato es outlier si está por debajo de o por encima de .
Ejemplo. Datos: .
- , , .
- Límite inferior: .
- Límite superior: .
El está fuera del límite superior — es un outlier. (El está justo en el borde.)
Visualización: diagrama de caja (boxplot). Es la herramienta clásica para visualizar la dispersión. El "cajón" cubre de a , la línea interna es la mediana, los "bigotes" se extienden hasta los extremos no-outliers, y los outliers se grafican como puntos sueltos.
Cuándo eliminar un outlier: cuando es claramente un error (un termómetro roto, un dedo errado en el teclado), eliminarlo es legítimo. Cuando el outlier es real (un cliente que sí compró 1000 pupusas), no lo elimines — es información valiosa, aunque rara. Documentá la decisión.
3.8 Coeficiente de variación
Cuando querés comparar dispersión entre grupos con medias muy distintas, la desviación estándar bruta engaña. Usás el coeficiente de variación:
Ejemplo. Comparar variabilidad de salarios mensuales ($500 ± $50) vs. anuales ($6000 ± $50).
- Mensual: .
- Anual: .
Aunque la es la misma, relativamente el sueldo mensual varía mucho más. El CV te dice eso.
3.9 Ejercicios
✏️ Ejercicio 3.1 — Cálculo paso a paso
Las temperaturas máximas de una semana en San Miguel: (°C).
Calculá rango, varianza muestral, desviación estándar muestral.
Solución
Rango: .
Media: .
Desviaciones al cuadrado:
| 32 | -0.86 | 0.74 |
| 33 | 0.14 | 0.02 |
| 31 | -1.86 | 3.46 |
| 34 | 1.14 | 1.30 |
| 32 | -0.86 | 0.74 |
| 33 | 0.14 | 0.02 |
| 35 | 2.14 | 4.58 |
Suma ≈ 10.86.
. °C.
✏️ Ejercicio 3.2 — Cuartiles e IQR
Notas de un parcial de 12 estudiantes: .
Calculá , el IQR y los límites para outliers.
Solución
Datos ya ordenados, n = 12.
(mediana): promedio de las posiciones 6 y 7 → .
Mitad inferior: . . Mitad superior: . .
IQR = .
Límites:
- Inferior: .
- Superior: .
Ningún dato está fuera. No hay outliers.
✏️ Ejercicio 3.3 — Coeficiente de variación
Comparás dispersión de altura (en cm) y peso (en kg) de un grupo de estudiantes:
- Altura: , .
- Peso: , .
¿Cuál es relativamente más variable?
Solución
CV altura: . CV peso: .
El peso es relativamente más variable, aunque su absoluta es menor.
✏️ Ejercicio 3.4 — Datos completos
Las ventas diarias de una pupusería (cantidad de pupusas) durante 10 días: .
a. Calculá media, mediana y desviación estándar. b. Identifica posibles outliers con la regla 1.5·IQR. c. Recalculá la media sin el outlier (si lo hay). Comparalo con la mediana original.
Solución
a. Suma: . Media: .
Ordenados: . Mediana: .
Para : cálculo:
. . .
b. . . IQR = .
Límite superior: . El 200 es outlier.
c. Sin el 200: media de los 9 restantes = . Mucho más cercana a la mediana original (97.5). El outlier infló la media en 10 unidades.
3.10 Para profundizar
- Spiegel & Stephens, Estadística (Schaum), capítulo 5.
- Sobre por qué la corrección de Bessel (): búsquedas como "unbiased estimator of variance" en cualquier libro de estadística inferencial.
- Visualizing data: The Visual Display of Quantitative Information de Edward Tufte. Clásico sobre cómo (y cómo no) graficar.
- Próximo paso: distribuciones de probabilidad (en el siguiente curso, Estadística Inferencial), y luego inferencia estadística — el puente entre datos descriptivos y conclusiones generalizables.
Definiciones nuevas: rango, varianza, desviación estándar, varianza poblacional vs muestral, corrección de Bessel, cuartiles, percentiles, IQR, outlier, coeficiente de variación, boxplot.