Medidas de dispersión

"Un río con profundidad media de medio metro ahogó a un hombre." — chiste estadístico clásico.

Qué vas a aprender en este capítulo

Las medidas de tendencia central te dicen "el centro" de los datos. Pero dos conjuntos pueden tener la misma media y ser completamente distintos. En este capítulo aprendés a medir qué tan dispersos están los datos: rango, varianza, desviación estándar, cuartiles e IQR. Vas a entender por qué la desviación estándar es la medida más útil de dispersión, por qué hay dos versiones (muestral y poblacional), y cómo detectar valores atípicos sistemáticamente.

3.1 La idea: la media no cuenta toda la historia

💡 Intuición

Comparemos dos grupos de notas:

  • Grupo A: 7,7,7,7,77, 7, 7, 7, 7. Media = 7.
  • Grupo B: 1,4,7,10,131, 4, 7, 10, 13. Media = 7.

La media es la misma — pero los grupos son muy distintos. En A todo el mundo sacó 7. En B, alguien casi reprueba y otro sacó nota muy alta.

Las medidas de dispersión cuantifican qué tan separados están los datos del centro. Sin ellas, dos distribuciones radicalmente distintas pueden parecer iguales.

Tres formas clásicas:

  1. Rango: cuánto va del menor al mayor.
  2. Varianza y desviación estándar: dispersión "promedio" alrededor de la media.
  3. Rango intercuartil (IQR): dispersión del 50% central, ignorando colas.

Cada una tiene sus virtudes. La desviación estándar es la más usada en estadística inferencial; el IQR es lo más robusto frente a outliers.

3.2 Rango

📐 Fundamento

Definición. R=xmaxxminR = x_{\max} - x_{\min}.

Ejemplos:

  • 1,4,7,10,131, 4, 7, 10, 13. Rango = 131=1213 - 1 = 12.
  • 5,5,5,5,55, 5, 5, 5, 5. Rango = 00.

Ventaja: trivial de calcular.

Desventaja: solo usa dos datos, los extremos. Ignora todo lo de en medio. Si tenés 0,5,5,5,1000, 5, 5, 5, 100 y 0,25,50,75,1000, 25, 50, 75, 100, ambos tienen rango 100, pero las distribuciones son distintísimas.

Por eso el rango se reporta como una nota al pie, no como medida principal.

3.3 Varianza y desviación estándar

📐 Fundamento

La idea: medir cuánto se separa cada dato de la media, y promediar esas separaciones.

Primer intento — desviaciones simples:

1n(xixˉ)\frac{1}{n} \sum (x_i - \bar{x})

Pero esto siempre da cero — recordá la propiedad de la media. Las desviaciones positivas y negativas se cancelan.

Solución: elevar al cuadrado.

σ2=1Ni=1N(xiμ)2(varianza poblacional)\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 \quad \text{(varianza poblacional)}

Eso es la varianza. La elevación al cuadrado:

  1. Elimina los signos negativos.
  2. Castiga más a los datos lejanos (un dato 2 veces más lejos contribuye 4 veces más).
  3. Tiene buenas propiedades matemáticas para teoremas posteriores.

Problema con la varianza: las unidades quedan al cuadrado. Si los datos están en metros, la varianza está en metros². No es interpretable directamente.

Solución: desviación estándar. La raíz cuadrada de la varianza:

σ=σ2\sigma = \sqrt{\sigma^2}

Vuelve a las unidades originales. Es la medida estándar de dispersión.

Interpretación. σ\sigma es algo así como la "distancia típica" de un dato a la media. Si la altura promedio en una población es 170 cm con σ=8\sigma = 8 cm, la mayoría de la gente está dentro de 170±8170 \pm 8 cm.

(Bajo distribución normal, ~68% de los datos cae a 1σ\sigma de la media, ~95% a 2σ\sigma, ~99.7% a 3σ\sigma. Lo veremos en estadística inferencial.)

3.4 Muestral vs. poblacional — la división por n1n - 1

📐 Fundamento

Hay dos versiones de varianza, y la diferencia confunde mucho.

Varianza poblacional (cuando los datos son toda la población):

σ2=1Ni=1N(xiμ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2

Varianza muestral (cuando los datos son una muestra que estima la población):

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n - 1} \sum_{i=1}^n (x_i - \bar{x})^2

¿Por qué n1n - 1? Cuando estimás μ\mu con xˉ\bar{x}, perdés "un grado de libertad": una vez fijados n1n - 1 valores y la media, el último está determinado. Dividir por nn subestima la verdadera varianza; dividir por n1n - 1 corrige el sesgo.

Esto se llama corrección de Bessel. La demostración rigurosa sale en estadística inferencial — por ahora, memorizá la regla:

  • Datos = toda la población → divide por NN.
  • Datos = muestra → divide por n1n - 1.

En la práctica, casi siempre usás n1n - 1 porque casi siempre tenés muestras. Cuando dudes, usá n1n - 1.

Símbolos.

  • μ,σ,σ2\mu, \sigma, \sigma^2 — parámetros poblacionales (lo "verdadero", desconocido).
  • xˉ,s,s2\bar{x}, s, s^2 — estadísticos muestrales (lo que calculaste a partir de los datos).

Las calculadoras y software (Excel, Python) tienen las dos versiones — buscá STDEV.S (muestral) y STDEV.P (poblacional). Si ponés la fórmula equivocada, el resultado solo difiere en porcentaje pequeño con nn grande, pero conceptualmente importa.

3.5 Cómo calcular varianza paso a paso

🛠️ En la práctica

Método directo.

Datos: 4,8,6,5,34, 8, 6, 5, 3 (n = 5, asumimos muestra).

  1. Media: xˉ=(4+8+6+5+3)/5=26/5=5.2\bar{x} = (4+8+6+5+3)/5 = 26/5 = 5.2.
  2. Desviaciones: 1.2,2.8,0.8,0.2,2.2-1.2, 2.8, 0.8, -0.2, -2.2.
  3. Desviaciones al cuadrado: 1.44,7.84,0.64,0.04,4.841.44, 7.84, 0.64, 0.04, 4.84.
  4. Suma: 14.8014.80.
  5. Dividir por n1=4n - 1 = 4: s2=14.80/4=3.70s^2 = 14.80 / 4 = 3.70.
  6. Desviación estándar: s=3.701.92s = \sqrt{3.70} \approx 1.92.

Fórmula computacionalmente más estable (cuando hacés cuentas a mano):

s2=1n1(xi2(xi)2n)s^2 = \frac{1}{n-1} \left( \sum x_i^2 - \frac{(\sum x_i)^2}{n} \right)

Para los mismos datos:

  • xi=26\sum x_i = 26.
  • xi2=16+64+36+25+9=150\sum x_i^2 = 16 + 64 + 36 + 25 + 9 = 150.
  • s2=14(150262/5)=14(150135.2)=14.84=3.70s^2 = \frac{1}{4}(150 - 26^2/5) = \frac{1}{4}(150 - 135.2) = \frac{14.8}{4} = 3.70. ✓

En Python (módulo statistics):

import statistics
datos = [4, 8, 6, 5, 3]
print(statistics.mean(datos))    # 5.2
print(statistics.stdev(datos))   # 1.9235  (muestral, divide por n-1)
print(statistics.pstdev(datos))  # 1.7204  (poblacional, divide por n)

3.6 Cuartiles, percentiles y el IQR

📐 Fundamento

La mediana divide los datos en dos mitades. Si dividimos cada mitad otra vez por la mitad, obtenemos los cuartiles:

  • Q1Q_1 (primer cuartil): el 25% de los datos están por debajo.
  • Q2Q_2 (segundo cuartil): la mediana, 50%.
  • Q3Q_3 (tercer cuartil): el 75% de los datos están por debajo.

Percentiles generalizan la idea: PkP_k es el valor por debajo del cual cae el kk% de los datos.

  • P25=Q1P_{25} = Q_1, P50=Q2P_{50} = Q_2, P75=Q3P_{75} = Q_3.

Rango intercuartil (IQR):

IQR=Q3Q1\text{IQR} = Q_3 - Q_1

Mide la dispersión del 50% central de los datos. Es robusto — no se afecta por outliers en las colas.

Cómo calcular cuartiles.

  1. Ordená los datos.
  2. Mediana (Q2Q_2): valor central.
  3. Q1Q_1: mediana de la mitad inferior (los datos antes de la mediana).
  4. Q3Q_3: mediana de la mitad superior.

Ejemplo. 3,5,7,8,9,11,13,15,173, 5, 7, 8, 9, 11, 13, 15, 17 (n = 9).

  • Q2=9Q_2 = 9 (valor central).
  • Mitad inferior: 3,5,7,83, 5, 7, 8. Q1=(5+7)/2=6Q_1 = (5+7)/2 = 6.
  • Mitad superior: 11,13,15,1711, 13, 15, 17. Q3=(13+15)/2=14Q_3 = (13+15)/2 = 14.
  • IQR = 146=814 - 6 = 8.

Detalle: distintos software calculan cuartiles con fórmulas levemente diferentes. Las diferencias son menores; usá la convención del libro y el software de manera consistente.

3.7 Detectando outliers — la regla 1.5·IQR

🛠️ En la práctica

Una regla muy popular para detectar outliers sistemáticamente:

Un dato es outlier si está por debajo de Q11.5IQRQ_1 - 1.5 \cdot \text{IQR} o por encima de Q3+1.5IQRQ_3 + 1.5 \cdot \text{IQR}.

Ejemplo. Datos: 5,12,14,15,16,17,18,19,20,22,505, 12, 14, 15, 16, 17, 18, 19, 20, 22, 50.

  • Q1=14Q_1 = 14, Q3=20Q_3 = 20, IQR=6\text{IQR} = 6.
  • Límite inferior: 149=514 - 9 = 5.
  • Límite superior: 20+9=2920 + 9 = 29.

El 5050 está fuera del límite superior — es un outlier. (El 55 está justo en el borde.)

Visualización: diagrama de caja (boxplot). Es la herramienta clásica para visualizar la dispersión. El "cajón" cubre de Q1Q_1 a Q3Q_3, la línea interna es la mediana, los "bigotes" se extienden hasta los extremos no-outliers, y los outliers se grafican como puntos sueltos.

Diagrama de caja: la caja va de Q1 a Q3, la línea interna es la mediana, los bigotes se extienden hasta el dato no atípico más extremo, y un punto suelto indica un outlier. 0 60 mín Q₁ M Q₃ máx no-outlier ★ outlier

Cuándo eliminar un outlier: cuando es claramente un error (un termómetro roto, un dedo errado en el teclado), eliminarlo es legítimo. Cuando el outlier es real (un cliente que sí compró 1000 pupusas), no lo elimines — es información valiosa, aunque rara. Documentá la decisión.

3.8 Coeficiente de variación

Cuando querés comparar dispersión entre grupos con medias muy distintas, la desviación estándar bruta engaña. Usás el coeficiente de variación:

CV=sxˉ×100%CV = \frac{s}{\bar{x}} \times 100\%

Ejemplo. Comparar variabilidad de salarios mensuales ($500 ± $50) vs. anuales ($6000 ± $50).

Aunque la ss es la misma, relativamente el sueldo mensual varía mucho más. El CV te dice eso.

3.9 Ejercicios

✏️ Ejercicio 3.1 — Cálculo paso a paso

Las temperaturas máximas de una semana en San Miguel: 32,33,31,34,32,33,3532, 33, 31, 34, 32, 33, 35 (°C).

Calculá rango, varianza muestral, desviación estándar muestral.

✏️ Ejercicio 3.2 — Cuartiles e IQR

Notas de un parcial de 12 estudiantes: 4,5,5,6,6,7,7,7,8,8,9,104, 5, 5, 6, 6, 7, 7, 7, 8, 8, 9, 10.

Calculá Q1,Q2,Q3Q_1, Q_2, Q_3, el IQR y los límites para outliers.

✏️ Ejercicio 3.3 — Coeficiente de variación

Comparás dispersión de altura (en cm) y peso (en kg) de un grupo de estudiantes:

  • Altura: xˉ=170\bar{x} = 170, s=8s = 8.
  • Peso: xˉ=65\bar{x} = 65, s=5s = 5.

¿Cuál es relativamente más variable?

✏️ Ejercicio 3.4 — Datos completos

Las ventas diarias de una pupusería (cantidad de pupusas) durante 10 días: 80,95,110,100,90,105,200,95,100,9080, 95, 110, 100, 90, 105, 200, 95, 100, 90.

a. Calculá media, mediana y desviación estándar. b. Identifica posibles outliers con la regla 1.5·IQR. c. Recalculá la media sin el outlier (si lo hay). Comparalo con la mediana original.

3.10 Para profundizar


Definiciones nuevas: rango, varianza, desviación estándar, varianza poblacional vs muestral, corrección de Bessel, cuartiles, percentiles, IQR, outlier, coeficiente de variación, boxplot.