Medidas de tendencia central
"El hombre promedio tiene un ovario y un testículo." — broma estadística sobre lo que la media puede esconder.
Qué vas a aprender en este capítulo
Cómo resumir un montón de datos en un solo número que represente "el centro" o "el típico". Vas a aprender las tres medidas clásicas — media, mediana y moda — sus ventajas, sus debilidades, y cuándo usar cada una. Vas a ver por qué el promedio del salario en El Salvador no es el salario "típico", y por qué los outliers (valores atípicos) son la kryptonita de la media.
2.1 La idea: condensar muchos datos en uno
💡 Intuición
Imaginá que tomaste las edades de los 30 estudiantes de Programación I:
18, 19, 19, 20, 18, 22, 19, 21, 18, 20, 19, 18, 23, 19, 20,
18, 19, 21, 20, 18, 19, 22, 20, 19, 18, 19, 20, 25, 18, 19
Cuesta ver la imagen. Si alguien te pregunta "¿qué edad tienen los estudiantes?", no vas a leer 30 números. Decís algo como "19, más o menos". Eso es una medida de tendencia central — un número que representa el grupo entero.
Hay tres formas clásicas:
- Media (el promedio): sumás todo y dividís por la cantidad.
- Mediana: el valor del medio cuando ordenás los datos.
- Moda: el valor que aparece más veces.
Las tres dan respuestas distintas y cada una sirve para cosas distintas. Conocer la diferencia es lo que separa al estadístico aficionado del profesional.
Una sola medida nunca cuenta toda la historia. Por eso el próximo capítulo trata sobre dispersión: qué tan separados están los datos del centro.
2.2 La media (promedio aritmético)
📐 Fundamento
Definición. La media aritmética de un conjunto de datos es:
Notación:
- ("x barra") denota la media de una muestra.
- (mu) denota la media de una población (todo el conjunto, no una muestra).
- es el símbolo de sumatoria: .
Propiedad clave: la media es el "punto de equilibrio". Si imaginás los datos como pesas en una recta numérica, la media es el lugar donde la recta se equilibraría. Equivalentemente:
La suma de las desviaciones respecto a la media es cero. Es lo que define a la media matemáticamente.
Cómo afectan los outliers. La media es muy sensible a valores extremos. Ejemplo:
Salarios mensuales (en dólares) de 5 empleados:
- 400, 420, 450, 470, 5000.
Media: .
¿"Salario típico" 500. La media miente porque el quinto valor es atípico.
Eso pasa con el "salario promedio" en El Salvador, en EE.UU., en cualquier país: la media está inflada por unos pocos millonarios. La estadística profesional reporta la mediana para esto. Más adelante.
2.3 La mediana
📐 Fundamento
Definición. La mediana es el valor que divide al conjunto ordenado en dos mitades: la mitad de los datos están por debajo, la otra mitad por encima.
Cómo calcularla.
- Ordená los datos de menor a mayor.
- Si es impar: la mediana es el valor central, posición .
- Si es par: la mediana es el promedio de los dos valores centrales (posiciones y ).
Ejemplo 1 — n impar. Datos: (n = 9).
Ordenados: . Mediana = 4 (posición 5).
Ejemplo 2 — n par. Datos: (n = 6).
Ordenados: . Mediana = = 5.
Ventaja sobre la media: robustez. La mediana no se ve afectada por valores extremos. Volviendo a los salarios:
- Datos: .
- Media: (sesgada por el outlier).
- Mediana: (mucho más representativa).
Si reemplazás por , la mediana sigue siendo . Por eso los reportes serios de salario, precio de vivienda, etc. usan mediana, no media.
Cuándo usar mediana en lugar de media:
- Datos con outliers o cola larga (asimétricos).
- Distribuciones de ingreso, precios, tiempos de espera, etc.
- Datos ordinales (ranking) — la media no tiene sentido.
Cuándo usar media:
- Datos simétricos y sin outliers (alturas humanas, temperaturas en un mes).
- Cuando vas a hacer cálculos posteriores (varianza, desviación) — son más fáciles con la media.
- Cuando la "suma total" importa: salario promedio × número de empleados = costo total de planilla.
2.4 La moda
📐 Fundamento
Definición. La moda es el valor que aparece con más frecuencia.
Ejemplo. Edades: . La moda es 19 (aparece 4 veces).
Casos especiales:
- Sin moda: todos los valores tienen igual frecuencia.
- Bimodal: dos valores empatan en frecuencia máxima.
- Multimodal: tres o más empatan.
¿Para qué sirve? Es la única medida que tiene sentido para datos nominales (cualidades sin orden). Si preguntaste "¿cuál es tu carrera favorita?", la respuesta más común — Sistemas, Civil, Industrial, lo que sea — es la moda. La media de "carreras" no significa nada.
Para datos cuantitativos, la moda es menos informativa que media o mediana. La usás cuando:
- Querés saber el valor más común (talla de zapato más vendida, hora pico).
- El dato es nominal/categórico.
- Hay claros "picos" de frecuencia que destacan.
2.5 Cómo elegir entre las tres
🛠️ En la práctica
Tabla guía:
| Situación | Mejor medida |
|---|---|
| Datos nominales (categorías) | Moda |
| Datos ordinales (rankings) | Mediana o moda |
| Datos cuantitativos simétricos | Media |
| Datos cuantitativos con outliers o asimetría | Mediana |
| Querés "el más típico" | Moda |
| Querés "el del medio" | Mediana |
| Querés "el equilibrio" o vas a sumar | Media |
Regla práctica. Calculá las tres. Si están cerca, los datos son probablemente simétricos y cualquiera sirve. Si la media es mucho mayor que la mediana, hay outliers altos (cola derecha). Si la mediana es mayor, cola izquierda.
Forma de la distribución vs. medidas:
| Distribución | Relación |
|---|---|
| Simétrica | Media ≈ Mediana ≈ Moda |
| Asimétrica positiva (cola derecha) | Moda < Mediana < Media |
| Asimétrica negativa (cola izquierda) | Media < Mediana < Moda |
2.6 Media para datos agrupados
📐 Fundamento
A veces los datos vienen agrupados en intervalos (ej: histogramas de salarios). En ese caso usás la marca de clase (punto medio del intervalo) como representante:
donde es la frecuencia (cuántos datos hay en el intervalo ), es la marca de clase, y .
Ejemplo. Salarios mensuales de 50 empleados:
| Intervalo ( | Marca m_i$ | Frec. | |
|---|---|---|---|
| 300 – 400 | 350 | 12 | 4200 |
| 400 – 500 | 450 | 18 | 8100 |
| 500 – 600 | 550 | 10 | 5500 |
| 600 – 700 | 650 | 6 | 3900 |
| 700 – 800 | 750 | 4 | 3000 |
| Total | 50 | 24700 |
El salario promedio es $494. Usamos la marca de clase porque no tenemos los valores exactos — solo a qué intervalo pertenecen.
Para mediana en datos agrupados existe una fórmula similar de interpolación, que reproducimos en el capítulo siguiente cuando trabajemos con frecuencias acumuladas.
2.7 Media ponderada
📐 Fundamento
Cuando algunos valores importan más que otros, usás pesos:
Ejemplo: nota final de un curso.
| Evaluación | Nota | Peso |
|---|---|---|
| Parcial 1 | 7.0 | 25% |
| Parcial 2 | 8.5 | 25% |
| Parcial 3 | 6.0 | 25% |
| Proyecto | 9.5 | 25% |
.
Si los pesos son iguales (todos 25%), la media ponderada coincide con la media simple. Los pesos importan cuando algunas evaluaciones valen más:
| Evaluación | Nota | Peso |
|---|---|---|
| Parcial 1 | 7.0 | 20% |
| Parcial 2 | 8.5 | 20% |
| Parcial 3 | 6.0 | 20% |
| Proyecto | 9.5 | 40% |
.
El proyecto cuenta el doble, así que pesa más en la cuenta.
2.8 Media geométrica (vistazo)
Para datos que se multiplican (tasas de crecimiento, intereses compuestos, factores), la media correcta es la geométrica:
Ejemplo. Una inversión rinde 10% el primer año, -5% el segundo, 8% el tercero. ¿Cuál es la tasa "promedio" anual?
Los factores son (no las tasas).
.
Tasa promedio anual ≈ 4.11%. La media aritmética daría %, sobreestimando.
Regla. Si las cantidades se suman (alturas, tiempos), media aritmética. Si se multiplican (factores, tasas, ratios), media geométrica.
2.9 Ejercicios
✏️ Ejercicio 2.1 — Cálculo básico
Las notas de 7 estudiantes son: . Calculá media, mediana y moda.
Solución
Suma: . Media: .
Ordenados: . Mediana = .
Frecuencias: aparece 2 veces; los demás, 1. Moda = .
✏️ Ejercicio 2.2 — Outliers
Los salarios mensuales de un equipo de 6 personas son: $$450, $480, $500, $520, $550, $5000$.
a. Calculá media y mediana. b. ¿Cuál representa mejor "el salario típico"? ¿Por qué?
Solución
a. Suma = . Media = . Ordenados, mediana = .
b. La mediana () es mucho más representativa. La media está distorsionada por el salario alto. Si publicás "el salario promedio del equipo es $1250", estás engañando — solo una persona gana eso.
✏️ Ejercicio 2.3 — Promedio ponderado
En una materia, los exámenes valen 30% cada uno (dos exámenes), las tareas 20% y el proyecto final 20%. Un estudiante saca:
- Examen 1: 7
- Examen 2: 5
- Tareas: 9
- Proyecto: 8
¿Cuál es la nota final?
Solución
.
Nota final: 7.0.
✏️ Ejercicio 2.4 — Media geométrica
Una pupusería en San Miguel registra ventas anuales: año 1 = $$50{,}000$55{,}000$57{,}750$.
a. ¿Cuál fue la tasa de crecimiento cada año? b. ¿Cuál es la tasa de crecimiento "promedio" anual?
Solución
a. Año 1 → 2: , +10%. Año 2 → 3: , +5%.
b. Factores: . Media geométrica: . Tasa promedio: +7.47%.
Verificación: . ✓
(La aritmética daría , ligeramente desviada — la diferencia se hace mayor con tasas más extremas.)
✏️ Ejercicio 2.5 — Datos agrupados
Las edades de 50 estudiantes de la UNIMO se distribuyen así:
| Edad | Frecuencia |
|---|---|
| 17 – 19 | 22 |
| 19 – 21 | 18 |
| 21 – 23 | 7 |
| 23 – 25 | 3 |
Calculá la media (usando marcas de clase).
Solución
| Intervalo | Marca | ||
|---|---|---|---|
| 17–19 | 18 | 22 | 396 |
| 19–21 | 20 | 18 | 360 |
| 21–23 | 22 | 7 | 154 |
| 23–25 | 24 | 3 | 72 |
| Σ | 50 | 982 |
años.
2.10 Para profundizar
- Spiegel & Stephens, Estadística (Schaum), capítulos 3 y 4. Estándar de referencia para este nivel.
- Khan Academy: sección de medidas de tendencia central, con simuladores interactivos.
- Sobre desviar usuarios con la media en encuestas: "How to Lie with Statistics" de Darrell Huff (1954). Lectura amena y eternamente vigente.
- Próximo capítulo: Dispersión — qué tan separados están los datos del centro.
Definiciones nuevas: media aritmética, mediana, moda, outlier, asimetría, marca de clase, media ponderada, media geométrica, sumatoria .