Visualización de datos

"La gráfica más simple aporta más información a la mente del analista que cualquier otro recurso." — John Tukey, 1977.

Qué vas a aprender en este capítulo

Las medidas numéricas (media, varianza, cuartiles) condensan los datos en uno o dos números. Las gráficas te muestran toda la distribución de un solo vistazo — la forma, los huecos, los outliers, los patrones. Vas a aprender qué gráfica usar según el tipo de dato, cómo construirlas a mano y con software, cómo leerlas, y cómo NO usarlas para mentir (porque mucha gente lo hace).

4.1 La idea: ver la distribución entera

💡 Intuición

El cuarteto de Anscombe es un ejemplo legendario: cuatro conjuntos de datos con idénticas medias, varianzas, correlación y línea de regresión — pero gráficamente son cuatro distribuciones absolutamente distintas. Una es lineal, otra es curva, otra tiene un outlier dominante, otra es casi vertical. Los números no lo cuentan; las gráficas sí.

Una gráfica bien hecha no es decoración: es una herramienta de análisis. Te muestra cosas que ningún resumen numérico puede.

Pero hay un peligro: una gráfica mal hecha puede ocultar la verdad o, peor, mostrar mentiras como hechos. Ejes truncados, escalas no lineales, colores engañosos — son trampas comunes. Por eso este capítulo dedica tiempo no solo a hacer gráficas, sino a leerlas con sospecha.

📜 Historia

La visualización estadística moderna nació con William Playfair, un escocés de fines del siglo XVIII. En 1786 publicó el primer gráfico de barras y el gráfico de líneas que conocemos hoy. En 1801 inventó el gráfico de torta. Sus libros mostraban datos económicos (importaciones, deudas) en formas visuales nuevas.

Otro pionero fue John Snow, médico inglés que en 1854 mapeó casos de cólera en Londres y descubrió que se concentraban alrededor de una bomba de agua específica. Removió la manija de la bomba, y la epidemia paró. Fue el inicio de la epidemiología moderna — y todo gracias a un mapa.

En el siglo XX, John Tukey (el del título de capítulo) revolucionó la estadística con su libro Exploratory Data Analysis (1977), que introdujo el boxplot, el stem-and-leaf y muchas técnicas de visualización rápidas. Su filosofía: mirá los datos antes de modelarlos. Sigue vigente.

Hoy, la visualización es una rama entera de la ciencia de datos. Herramientas como Python (matplotlib, seaborn, plotly), R (ggplot2) y Tableau hicieron que crear gráficas profesionales esté al alcance de cualquiera con una computadora.

4.2 Cómo elegir el tipo de gráfica

📐 Fundamento

La regla maestra: el tipo de dato manda el tipo de gráfica.

Datos	Gráfico recomendado
Una variable cualitativa	Barras, torta
Una variable cuantitativa discreta	Barras, diagrama de puntos
Una variable cuantitativa continua	Histograma, polígono, boxplot
Dos cuantitativas (relación)	Diagrama de dispersión
Una cuantitativa por grupos	Boxplots agrupados, barras de error
Serie de tiempo	Gráfico de líneas

Reglas no negociables:

El eje vertical de barras y columnas debe empezar en 0. Si lo truncás (ej. de 95 a 100 cuando los datos van de 95 a 99), exagerás visualmente las diferencias. Es la trampa #1 de las gráficas mediáticas.
Los ejes deben tener etiquetas con la variable y la unidad (ej: "Salario (USD/mes)").
Las escalas deben ser uniformes. No mezcles escala lineal con logarítmica sin avisar.
El título debe explicar de qué hablás. "Salarios mensuales por carrera, UNIMO 2026" es mejor que "Gráfico 1".
Si comparás grupos, usá el mismo eje para todos. Comparar "alturas" entre tres grupos con tres ejes distintos es engaño.

4.3 Tablas de frecuencia

📐 Fundamento

Antes de graficar datos cuantitativos, casi siempre los agrupás en una tabla de frecuencias.

Pasos para construirla:

Rango: $R = x_{\max} - x_{\min}$ .
Número de clases (intervalos): regla práctica de Sturges: $k = 1 + 3.322 \log_{10}(n)$ . Redondeá hacia arriba. Para $n = 50$ , $k \approx 7$ . Para $n = 200$ , $k \approx 9$ .
Amplitud de cada clase: $A = R / k$ , redondeada hacia arriba para que cubra todo.
Construir intervalos ( $[a, b)$ — cerrado por la izquierda, abierto por la derecha, para que un dato no caiga en dos clases).
Frecuencias: contar cuántos datos van en cada clase.

Tipos de frecuencia:

Símbolo	Nombre	Qué mide
$f_i$	Frecuencia absoluta	Cuántos datos en la clase $i$
$f_{r,i} = f_i/n$	Frecuencia relativa	Proporción (entre 0 y 1)
$F_i$	Frecuencia acumulada	Cuántos datos hasta la clase $i$ inclusive
$F_{r,i}$	Frecuencia acumulada relativa	Proporción acumulada

Ejemplo. Pesos (kg) de 30 estudiantes:

55 60 62 64 65 67 68 68 69 70
70 71 72 72 73 74 74 75 76 77
77 78 78 79 80 81 82 83 85 88

Rango: $88 - 55 = 33$ . Sturges: $k = 1 + 3.322 \log 30 \approx 5.9 \to 6$ clases. Amplitud: $33/6 = 5.5 \to 6$ .

Tabla:

Clase	Marca $m$	$f$	$f_r$	$F$
[55, 61)	58	2	0.067	2
[61, 67)	64	4	0.133	6
[67, 73)	70	9	0.300	15
[73, 79)	76	8	0.267	23
[79, 85)	82	5	0.167	28
[85, 91)	88	2	0.067	30

Lectura: La mayor parte (9 + 8 = 17 personas, casi 60%) cae entre 67 y 79 kg. La distribución es razonablemente simétrica.

4.4 Histograma

📐 Fundamento

El histograma es la gráfica clásica para datos cuantitativos continuos. Cada clase se dibuja como una barra adyacente (sin espacio entre barras), con altura proporcional a la frecuencia.

Diferencia con el gráfico de barras:

Barras → datos categóricos. Las barras tienen separación entre sí (el espacio recuerda que las categorías son distintas).
Histograma → datos continuos. Las barras se tocan (el eje horizontal es una recta numérica continua).

Cómo elegir el número de clases. Pocas clases ocultan la forma (un histograma de 2 barras casi nunca dice nada). Demasiadas clases hacen el gráfico ruidoso (barras de altura 1 o 0). Sturges, raíz cuadrada ( $k = \sqrt{n}$ ) y la regla de Freedman-Diaconis son heurísticas razonables; al final, probá varias y elegí la que muestre la forma con claridad.

Histograma de frecuencia relativa. Si en lugar de la frecuencia $f_i$ ponés la frecuencia relativa $f_i/n$ , las áreas suman 1 (con clases de ancho 1) o se vuelven una densidad estimada (escalando por el ancho). Esto prepara el terreno para distribuciones de probabilidad continuas que vas a ver en estadística inferencial.

4.5 Polígono de frecuencia y ojiva

📐 Fundamento

Polígono de frecuencia. Conectás los puntos $(m_i, f_i)$ con segmentos rectos. Útil para superponer varias distribuciones (cosa que con histogramas se vuelve ilegible).

Ojiva (polígono de frecuencias acumuladas). Conectás los puntos $(b_i, F_i)$ donde $b_i$ es el límite superior de la clase $i$ . Crece monótonamente de 0 a $n$ .

Para qué sirve la ojiva:

Leer percentiles gráficamente. Para encontrar la mediana ( $P_{50}$ ): hallás dónde la ojiva cruza la línea horizontal en $n/2$ .
Calcular cuántos datos están por debajo (o por encima) de un valor.

Ejemplo de lectura. Para los 30 pesos del ejemplo anterior, la ojiva pasa por:

$x$	$F(x)$
61	2
67	6
73	15
79	23
85	28
91	30

¿Cuál es la mediana aproximada? $n/2 = 15$ , y la ojiva alcanza 15 justo en $x = 73$ kg. Entonces $\tilde{x} \approx 73$ . (En los datos crudos, la mediana es $(72 + 73)/2 = 72.5$ , muy cerca.)

4.6 Boxplot (diagrama de caja)

📐 Fundamento

Ya conocés del capítulo anterior. Repaso visual:

                  Q₁    M     Q₃
                ┌──────┼──────┐
   ────────────┤      │      ├────────────●
                └──────┴──────┘            ↑
                                       outlier
   ↑                              ↑
  bigote inferior            bigote superior
  (hasta el dato no-outlier   (idem)
   más bajo)

Por qué el boxplot es tan útil:

Muestra cinco números clave (mín no-outlier, $Q_1$ , mediana, $Q_3$ , máx no-outlier) más outliers.
Es resistente a outliers (la caja no se mueve por ellos).
Compara grupos instantáneamente: poné varios boxplots lado a lado y ves diferencias en mediana y dispersión de un vistazo.

Cosas que NO te dice el boxplot:

Si la distribución es bimodal (dos picos): el boxplot la mostraría igual que una unimodal con el mismo IQR.
La forma exacta dentro de la caja: solo da la mediana, no el "perfil" interno.

Por eso a veces se combina con un histograma o un violin plot (boxplot + densidad estimada).

4.7 Diagrama de dispersión (scatter plot)

📐 Fundamento

Cuando tenés dos variables cuantitativas y querés ver si se relacionan, usás un scatter plot: cada par $(x_i, y_i)$ es un punto.

Patrones que vas a buscar:

Tendencia lineal positiva: $y$ crece con $x$ .
Tendencia lineal negativa: $y$ decrece con $x$ .
No lineal (curva, exponencial, etc.).
Sin relación: una nube dispersa.
Outliers: puntos lejos del patrón general.
Agrupamientos (clusters): dos o más grupos diferenciados.

Coeficiente de correlación de Pearson:

r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \cdot \sum (y_i - \bar{y})^2}}

Va de $-1$ (anticorrelación perfecta) a $+1$ (correlación perfecta), pasando por $0$ (sin correlación lineal).

¡Trampa famosa! Correlación NO implica causalidad. Que dos variables suban juntas no significa que una cause la otra; pueden tener una causa común, o ser coincidencia. El consumo de chocolate por país y los Premios Nobel per cápita están correlacionados — ¡no comás chocolate esperando un Nobel!

Otra trampa: $r$ mide solo relación lineal. Una relación curva fuerte puede dar $r \approx 0$ . Mirá siempre el scatter, no solo el número.

4.8 Gráficas para datos categóricos

Gráfico de barras. Para frecuencias por categoría. Las barras pueden ir verticales u horizontales (horizontales son mejores cuando hay muchas categorías o nombres largos).

Gráfico de torta (pie chart). Para mostrar proporciones de un total. Usalo con moderación — los humanos somos malos comparando ángulos. Si tenés más de 4-5 categorías, un gráfico de barras es siempre mejor.

Tabla de contingencia + gráfico de barras agrupadas. Para dos variables categóricas. Por ejemplo: "carrera" × "género" en UNIMO. Cada combinación es una barra.

4.9 Gráficas que mienten (alfabetización visual)

⚠️ Trampa común

Algunas trampas frecuentes en gráficas mediáticas:

1. Eje truncado. Empezás el eje vertical en 60% en vez de 0%, así una diferencia de 5 puntos parece enorme. Casi todas las gráficas de campañas políticas hacen esto.

2. Gráfica 3D innecesaria. Las tortas 3D distorsionan los tamaños de los pedazos según la perspectiva. Las barras 3D son apenas mejores. Reglá: 3D solo si aportás una tercera variable real, no por estética.

3. Áreas vs longitudes. Si "duplicás un país" mostrando un mapa el doble de alto y ancho, la área es 4 veces, no 2. Engaña visualmente.

4. Escala logarítmica sin avisar. En log scale, un crecimiento exponencial parece lineal. Útil para datos con varias órdenes de magnitud, pero confuso si no se anuncia.

5. "Cherry-picking" del rango temporal. Mostrá el período donde tu tesis se ve bien, ocultá el resto.

Defensa. Cuando veas una gráfica:

¿Empieza el eje vertical en 0?
¿Las escalas son lineales?
¿Cuál es el rango de fechas y por qué?
¿La fuente es confiable?

Estas preguntas son la diferencia entre lectura crítica y consumo pasivo.

4.10 Visualización con Python (vistazo)

Si ya conocés Python (Programación I), las herramientas estándar son:

import matplotlib.pyplot as plt

datos = [55, 60, 62, ..., 88]

# Histograma
plt.hist(datos, bins=6)
plt.xlabel("Peso (kg)")
plt.ylabel("Frecuencia")
plt.title("Distribución de pesos - 30 estudiantes")
plt.show()

# Boxplot
plt.boxplot(datos)
plt.show()

# Scatter plot de dos variables
import numpy as np
x = np.random.rand(100)
y = 2 * x + np.random.normal(0, 0.1, 100)
plt.scatter(x, y)
plt.xlabel("x")
plt.ylabel("y")
plt.show()

matplotlib es la biblioteca clásica. seaborn (encima de matplotlib) tiene gráficos estadísticos más vistosos por defecto. pandas permite hacer histogramas y boxplots directamente desde DataFrames con df.hist(), df.boxplot(). Lo profundizamos en cursos de Análisis de Datos.

4.11 Ejercicios

✏️ Ejercicio 4.1 — Tabla de frecuencias

Las edades de 25 estudiantes de la UNIMO: $18, 19, 19, 20, 18, 22, 19, 21, 18, 20, 19, 18, 23, 19, 20, 18, 19, 21, 20, 18, 19, 22, 20, 19, 25$ .

Construí una tabla de frecuencias con 4 clases. Calculá frecuencia absoluta, relativa y acumulada.

Clase	$m$	$f$	$f_r$	$F$
[18, 20)	19	13	0.52	13
[20, 22)	21	7	0.28	20
[22, 24)	23	4	0.16	24
[24, 26)	25	1	0.04	25

✏️ Ejercicio 4.2 — Lectura de boxplot

Te muestran un boxplot de salarios mensuales (en USD) de 100 ingenieros recién graduados. La caja va de $450 a $700, la línea de la mediana en $550, los bigotes desde $350 hasta $900, y hay tres puntos sueltos en $1500, $1700 y $2000.

a. ¿Cuál es el IQR? b. ¿Cuántas personas ganan menos de $450? c. ¿Es la distribución simétrica? d. ¿Qué pasa con los tres puntos sueltos?

✏️ Ejercicio 4.3 — Detectar engaño visual

Una empresa publica una gráfica de barras con el "crecimiento" de sus ventas. El eje vertical va de 980 a 1020 (unidades vendidas). Las barras de los meses son: 985, 990, 995, 1010, 1015. Visualmente la última barra parece 3 veces más grande que la primera.

a. ¿Cuál es el crecimiento real (porcentual) entre el primer y último mes? b. ¿Por qué la gráfica engaña? c. ¿Cómo deberían dibujarla?

✏️ Ejercicio 4.4 — Histograma vs. boxplot

Tenés dos conjuntos de datos:

A: $1, 2, 3, 4, 5, 6, 7, 8, 9, 10$ (10 valores).
B: $1, 1, 1, 5, 5, 5, 5, 9, 9, 9$ (10 valores).

a. Calculá media y mediana de cada uno. b. Calculá $Q_1, Q_3$ e IQR de cada uno. c. ¿Los boxplots se verían iguales o distintos? ¿Y los histogramas?

4.12 Para profundizar

Tufte, The Visual Display of Quantitative Information (1983). El clásico absoluto. Lectura para toda la vida.
Cairo, The Truthful Art (2016). Visualización moderna y ética.
Tutorial de matplotlib: https://matplotlib.org/stable/tutorials/index.html
Ejercicios interactivos: https://www.khanacademy.org/math/statistics-probability — sección "Análisis de datos univariados".

4.13 Cierre del libro

Al terminar este capítulo cerrás el ciclo básico de la estadística descriptiva:

Reconociste tipos de datos (capítulo 1).
Resumiste con medidas de tendencia central (capítulo 2).
Cuantificaste la dispersión (capítulo 3).
Visualizaste la distribución entera (capítulo 4).

El paso siguiente es Estadística Inferencial (otro libro, EST215). Ahí pasás de "describir lo que tengo" a "concluir sobre lo que no veo": probabilidad, distribución normal, intervalos de confianza, pruebas de hipótesis. La descripción es la base; la inferencia es el edificio.

4.X Mini-proyecto integrador

🏗️ Proyecto final — Análisis exploratorio de datos reales

Alcance: tomás un dataset real, lo describís usando todo el libro y comunicás hallazgos en un reporte de 3 páginas.

Datasets sugeridos (todos públicos):

Calificaciones del semestre (tu propia carrera o pedida a un compañero, con su permiso).
Precios de la canasta básica en El Salvador (DIGESTYC, mensuales).
Resultados de partidos del fútbol salvadoreño (Wikipedia exporta CSV).
Movilidad por departamento (datos abiertos del MOP).

Entregables (Excel/Sheets o Python+pandas):

Tabla de frecuencias con clases bien elegidas (regla de Sturges, cap. 1).
Medidas de tendencia central: media, mediana, moda. Discutí cuál es más apropiada y por qué (cap. 2).
Medidas de dispersión: rango, IQR, desviación estándar. Identificá outliers con la regla del IQR (cap. 3).
3 visualizaciones: histograma, boxplot, y una tercera a tu elección. Todas con título, ejes etiquetados y fuente (cap. 4).
Reporte ejecutivo de 3 páginas: 1 página de hallazgos clave (3 bullets), 1 página de gráficos comentados, 1 página de "qué haría con más datos". Como si lo presentaras a tu jefe.

Criterio de éxito: alguien que no conoce los datos puede leer el reporte y entender los hallazgos en 5 minutos.

Tiempo estimado: una semana.

Definiciones nuevas: tabla de frecuencia, frecuencia absoluta, relativa, acumulada, marca de clase, regla de Sturges, histograma, polígono de frecuencias, ojiva, scatter plot, correlación, eje truncado.

← Anterior Medidas de dispersión

Reportar error en este capítulo · Patrocinar este libro