Medidas de dispersión

"Un río con profundidad media de medio metro ahogó a un hombre." — chiste estadístico clásico.

Qué vas a aprender en este capítulo

Las medidas de tendencia central te dicen "el centro" de los datos. Pero dos conjuntos pueden tener la misma media y ser completamente distintos. En este capítulo aprendés a medir qué tan dispersos están los datos: rango, varianza, desviación estándar, cuartiles e IQR. Vas a entender por qué la desviación estándar es la medida más útil de dispersión, por qué hay dos versiones (muestral y poblacional), y cómo detectar valores atípicos sistemáticamente.

3.1 La idea: la media no cuenta toda la historia

💡 Intuición

Comparemos dos grupos de notas:

Grupo A: $7, 7, 7, 7, 7$ . Media = 7.
Grupo B: $1, 4, 7, 10, 13$ . Media = 7.

La media es la misma — pero los grupos son muy distintos. En A todo el mundo sacó 7. En B, alguien casi reprueba y otro sacó nota muy alta.

Las medidas de dispersión cuantifican qué tan separados están los datos del centro. Sin ellas, dos distribuciones radicalmente distintas pueden parecer iguales.

Tres formas clásicas:

Rango: cuánto va del menor al mayor.
Varianza y desviación estándar: dispersión "promedio" alrededor de la media.
Rango intercuartil (IQR): dispersión del 50% central, ignorando colas.

Cada una tiene sus virtudes. La desviación estándar es la más usada en estadística inferencial; el IQR es lo más robusto frente a outliers.

3.2 Rango

📐 Fundamento

Definición. $R = x_{\max} - x_{\min}$ .

Ejemplos:

$1, 4, 7, 10, 13$ . Rango = $13 - 1 = 12$ .
$5, 5, 5, 5, 5$ . Rango = $0$ .

Ventaja: trivial de calcular.

Desventaja: solo usa dos datos, los extremos. Ignora todo lo de en medio. Si tenés $0, 5, 5, 5, 100$ y $0, 25, 50, 75, 100$ , ambos tienen rango 100, pero las distribuciones son distintísimas.

Por eso el rango se reporta como una nota al pie, no como medida principal.

3.3 Varianza y desviación estándar

📐 Fundamento

La idea: medir cuánto se separa cada dato de la media, y promediar esas separaciones.

Primer intento — desviaciones simples:

\frac{1}{n} \sum (x_i - \bar{x})

Pero esto siempre da cero — recordá la propiedad de la media. Las desviaciones positivas y negativas se cancelan.

Solución: elevar al cuadrado.

\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 \quad \text{(varianza poblacional)}

Eso es la varianza. La elevación al cuadrado:

Elimina los signos negativos.
Castiga más a los datos lejanos (un dato 2 veces más lejos contribuye 4 veces más).
Tiene buenas propiedades matemáticas para teoremas posteriores.

Problema con la varianza: las unidades quedan al cuadrado. Si los datos están en metros, la varianza está en metros². No es interpretable directamente.

Solución: desviación estándar. La raíz cuadrada de la varianza:

\sigma = \sqrt{\sigma^2}

Vuelve a las unidades originales. Es la medida estándar de dispersión.

Interpretación. $\sigma$ es algo así como la "distancia típica" de un dato a la media. Si la altura promedio en una población es 170 cm con $\sigma = 8$ cm, la mayoría de la gente está dentro de $170 \pm 8$ cm.

(Bajo distribución normal, ~68% de los datos cae a 1 $\sigma$ de la media, ~95% a 2 $\sigma$ , ~99.7% a 3 $\sigma$ . Lo veremos en estadística inferencial.)

3.4 Muestral vs. poblacional — la división por $n - 1$

📐 Fundamento

Hay dos versiones de varianza, y la diferencia confunde mucho.

Varianza poblacional (cuando los datos son toda la población):

\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2

Varianza muestral (cuando los datos son una muestra que estima la población):

s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - \bar{x})^2

¿Por qué $n - 1$ ? Cuando estimás $\mu$ con $\bar{x}$ , perdés "un grado de libertad": una vez fijados $n - 1$ valores y la media, el último está determinado. Dividir por $n$ subestima la verdadera varianza; dividir por $n - 1$ corrige el sesgo.

Esto se llama corrección de Bessel. La demostración rigurosa sale en estadística inferencial — por ahora, memorizá la regla:

Datos = toda la población → divide por $N$ .
Datos = muestra → divide por $n - 1$ .

En la práctica, casi siempre usás $n - 1$ porque casi siempre tenés muestras. Cuando dudes, usá $n - 1$ .

Símbolos.

$\mu, \sigma, \sigma^2$ — parámetros poblacionales (lo "verdadero", desconocido).
$\bar{x}, s, s^2$ — estadísticos muestrales (lo que calculaste a partir de los datos).

Las calculadoras y software (Excel, Python) tienen las dos versiones — buscá STDEV.S (muestral) y STDEV.P (poblacional). Si ponés la fórmula equivocada, el resultado solo difiere en porcentaje pequeño con $n$ grande, pero conceptualmente importa.

3.5 Cómo calcular varianza paso a paso

🛠️ En la práctica

Método directo.

Datos: $4, 8, 6, 5, 3$ (n = 5, asumimos muestra).

Media: $\bar{x} = (4+8+6+5+3)/5 = 26/5 = 5.2$ .
Desviaciones: $-1.2, 2.8, 0.8, -0.2, -2.2$ .
Desviaciones al cuadrado: $1.44, 7.84, 0.64, 0.04, 4.84$ .
Suma: $14.80$ .
Dividir por $n - 1 = 4$ : $s^2 = 14.80 / 4 = 3.70$ .
Desviación estándar: $s = \sqrt{3.70} \approx 1.92$ .

Fórmula computacionalmente más estable (cuando hacés cuentas a mano):

s^2 = \frac{1}{n-1} \left( \sum x_i^2 - \frac{(\sum x_i)^2}{n} \right)

Para los mismos datos:

$\sum x_i = 26$ .
$\sum x_i^2 = 16 + 64 + 36 + 25 + 9 = 150$ .
$s^2 = \frac{1}{4}(150 - 26^2/5) = \frac{1}{4}(150 - 135.2) = \frac{14.8}{4} = 3.70$ . ✓

En Python (módulo statistics):

import statistics
datos = [4, 8, 6, 5, 3]
print(statistics.mean(datos))    # 5.2
print(statistics.stdev(datos))   # 1.9235  (muestral, divide por n-1)
print(statistics.pstdev(datos))  # 1.7204  (poblacional, divide por n)

3.6 Cuartiles, percentiles y el IQR

📐 Fundamento

La mediana divide los datos en dos mitades. Si dividimos cada mitad otra vez por la mitad, obtenemos los cuartiles:

$Q_1$ (primer cuartil): el 25% de los datos están por debajo.
$Q_2$ (segundo cuartil): la mediana, 50%.
$Q_3$ (tercer cuartil): el 75% de los datos están por debajo.

Percentiles generalizan la idea: $P_k$ es el valor por debajo del cual cae el $k$ % de los datos.

$P_{25} = Q_1$ , $P_{50} = Q_2$ , $P_{75} = Q_3$ .

Rango intercuartil (IQR):

\text{IQR} = Q_3 - Q_1

Mide la dispersión del 50% central de los datos. Es robusto — no se afecta por outliers en las colas.

Cómo calcular cuartiles.

Ordená los datos.
Mediana ( $Q_2$ ): valor central.
$Q_1$ : mediana de la mitad inferior (los datos antes de la mediana).
$Q_3$ : mediana de la mitad superior.

Ejemplo. $3, 5, 7, 8, 9, 11, 13, 15, 17$ (n = 9).

$Q_2 = 9$ (valor central).
Mitad inferior: $3, 5, 7, 8$ . $Q_1 = (5+7)/2 = 6$ .
Mitad superior: $11, 13, 15, 17$ . $Q_3 = (13+15)/2 = 14$ .
IQR = $14 - 6 = 8$ .

Detalle: distintos software calculan cuartiles con fórmulas levemente diferentes. Las diferencias son menores; usá la convención del libro y el software de manera consistente.

3.7 Detectando outliers — la regla 1.5·IQR

🛠️ En la práctica

Una regla muy popular para detectar outliers sistemáticamente:

Un dato es outlier si está por debajo de $Q_1 - 1.5 \cdot \text{IQR}$ o por encima de $Q_3 + 1.5 \cdot \text{IQR}$ .

Ejemplo. Datos: $5, 12, 14, 15, 16, 17, 18, 19, 20, 22, 50$ .

$Q_1 = 14$ , $Q_3 = 20$ , $\text{IQR} = 6$ .
Límite inferior: $14 - 9 = 5$ .
Límite superior: $20 + 9 = 29$ .

El $50$ está fuera del límite superior — es un outlier. (El $5$ está justo en el borde.)

Visualización: diagrama de caja (boxplot). Es la herramienta clásica para visualizar la dispersión. El "cajón" cubre de $Q_1$ a $Q_3$ , la línea interna es la mediana, los "bigotes" se extienden hasta los extremos no-outliers, y los outliers se grafican como puntos sueltos.

Cuándo eliminar un outlier: cuando es claramente un error (un termómetro roto, un dedo errado en el teclado), eliminarlo es legítimo. Cuando el outlier es real (un cliente que sí compró 1000 pupusas), no lo elimines — es información valiosa, aunque rara. Documentá la decisión.

3.8 Coeficiente de variación

Cuando querés comparar dispersión entre grupos con medias muy distintas, la desviación estándar bruta engaña. Usás el coeficiente de variación:

CV = \frac{s}{\bar{x}} \times 100\%

Ejemplo. Comparar variabilidad de salarios mensuales ($500 ± $50) vs. anuales ($6000 ± $50).

Mensual: $CV = 50/500 = 10%$ .
Anual: $CV = 50/6000 \approx 0.83%$ .

Aunque la $s$ es la misma, relativamente el sueldo mensual varía mucho más. El CV te dice eso.

3.9 Ejercicios

✏️ Ejercicio 3.1 — Cálculo paso a paso

Las temperaturas máximas de una semana en San Miguel: $32, 33, 31, 34, 32, 33, 35$ (°C).

Calculá rango, varianza muestral, desviación estándar muestral.

Solución

Rango: $35 - 31 = 4$ .

Media: $\bar{x} = (32+33+31+34+32+33+35)/7 = 230/7 \approx 32.86$ .

Desviaciones al cuadrado:

$x_i$	$x_i - \bar{x}$	$(x_i - \bar{x})^2$
32	-0.86	0.74
33	0.14	0.02
31	-1.86	3.46
34	1.14	1.30
32	-0.86	0.74
33	0.14	0.02
35	2.14	4.58

Suma ≈ 10.86.

$s^2 = 10.86 / 6 \approx 1.81$ . $s = \sqrt{1.81} \approx 1.35$ °C.

✏️ Ejercicio 3.2 — Cuartiles e IQR

Notas de un parcial de 12 estudiantes: $4, 5, 5, 6, 6, 7, 7, 7, 8, 8, 9, 10$ .

Calculá $Q_1, Q_2, Q_3$ , el IQR y los límites para outliers.

✏️ Ejercicio 3.3 — Coeficiente de variación

Comparás dispersión de altura (en cm) y peso (en kg) de un grupo de estudiantes:

Altura: $\bar{x} = 170$ , $s = 8$ .
Peso: $\bar{x} = 65$ , $s = 5$ .

¿Cuál es relativamente más variable?

✏️ Ejercicio 3.4 — Datos completos

Las ventas diarias de una pupusería (cantidad de pupusas) durante 10 días: $80, 95, 110, 100, 90, 105, 200, 95, 100, 90$ .

a. Calculá media, mediana y desviación estándar. b. Identifica posibles outliers con la regla 1.5·IQR. c. Recalculá la media sin el outlier (si lo hay). Comparalo con la mediana original.

3.10 Para profundizar

Spiegel & Stephens, Estadística (Schaum), capítulo 5.
Sobre por qué la corrección de Bessel ( $n - 1$ ): búsquedas como "unbiased estimator of variance" en cualquier libro de estadística inferencial.
Visualizing data: The Visual Display of Quantitative Information de Edward Tufte. Clásico sobre cómo (y cómo no) graficar.
Próximo paso: distribuciones de probabilidad (en el siguiente curso, Estadística Inferencial), y luego inferencia estadística — el puente entre datos descriptivos y conclusiones generalizables.

Definiciones nuevas: rango, varianza, desviación estándar, varianza poblacional vs muestral, corrección de Bessel, cuartiles, percentiles, IQR, outlier, coeficiente de variación, boxplot.

← Anterior Medidas de tendencia central Siguiente → Visualización de datos

Reportar error en este capítulo · Patrocinar este libro

Medidas de dispersión

Qué vas a aprender en este capítulo

3.1 La idea: la media no cuenta toda la historia

3.2 Rango

3.3 Varianza y desviación estándar

3.4 Muestral vs. poblacional — la división por n−1n - 1n−1

3.5 Cómo calcular varianza paso a paso

3.6 Cuartiles, percentiles y el IQR

3.7 Detectando outliers — la regla 1.5·IQR

3.8 Coeficiente de variación

3.9 Ejercicios

3.10 Para profundizar

3.4 Muestral vs. poblacional — la división por $n - 1$