Visualización de datos
"La gráfica más simple aporta más información a la mente del analista que cualquier otro recurso." — John Tukey, 1977.
Qué vas a aprender en este capítulo
Las medidas numéricas (media, varianza, cuartiles) condensan los datos en uno o dos números. Las gráficas te muestran toda la distribución de un solo vistazo — la forma, los huecos, los outliers, los patrones. Vas a aprender qué gráfica usar según el tipo de dato, cómo construirlas a mano y con software, cómo leerlas, y cómo NO usarlas para mentir (porque mucha gente lo hace).
4.1 La idea: ver la distribución entera
💡 Intuición
El cuarteto de Anscombe es un ejemplo legendario: cuatro conjuntos de datos con idénticas medias, varianzas, correlación y línea de regresión — pero gráficamente son cuatro distribuciones absolutamente distintas. Una es lineal, otra es curva, otra tiene un outlier dominante, otra es casi vertical. Los números no lo cuentan; las gráficas sí.
Una gráfica bien hecha no es decoración: es una herramienta de análisis. Te muestra cosas que ningún resumen numérico puede.
Pero hay un peligro: una gráfica mal hecha puede ocultar la verdad o, peor, mostrar mentiras como hechos. Ejes truncados, escalas no lineales, colores engañosos — son trampas comunes. Por eso este capítulo dedica tiempo no solo a hacer gráficas, sino a leerlas con sospecha.
📜 Historia
La visualización estadística moderna nació con William Playfair, un escocés de fines del siglo XVIII. En 1786 publicó el primer gráfico de barras y el gráfico de líneas que conocemos hoy. En 1801 inventó el gráfico de torta. Sus libros mostraban datos económicos (importaciones, deudas) en formas visuales nuevas.
Otro pionero fue John Snow, médico inglés que en 1854 mapeó casos de cólera en Londres y descubrió que se concentraban alrededor de una bomba de agua específica. Removió la manija de la bomba, y la epidemia paró. Fue el inicio de la epidemiología moderna — y todo gracias a un mapa.
En el siglo XX, John Tukey (el del título de capítulo) revolucionó la estadística con su libro Exploratory Data Analysis (1977), que introdujo el boxplot, el stem-and-leaf y muchas técnicas de visualización rápidas. Su filosofía: mirá los datos antes de modelarlos. Sigue vigente.
Hoy, la visualización es una rama entera de la ciencia de datos. Herramientas como Python (matplotlib, seaborn, plotly), R (ggplot2) y Tableau hicieron que crear gráficas profesionales esté al alcance de cualquiera con una computadora.
4.2 Cómo elegir el tipo de gráfica
📐 Fundamento
La regla maestra: el tipo de dato manda el tipo de gráfica.
| Datos | Gráfico recomendado |
|---|---|
| Una variable cualitativa | Barras, torta |
| Una variable cuantitativa discreta | Barras, diagrama de puntos |
| Una variable cuantitativa continua | Histograma, polígono, boxplot |
| Dos cuantitativas (relación) | Diagrama de dispersión |
| Una cuantitativa por grupos | Boxplots agrupados, barras de error |
| Serie de tiempo | Gráfico de líneas |
Reglas no negociables:
- El eje vertical de barras y columnas debe empezar en 0. Si lo truncás (ej. de 95 a 100 cuando los datos van de 95 a 99), exagerás visualmente las diferencias. Es la trampa #1 de las gráficas mediáticas.
- Los ejes deben tener etiquetas con la variable y la unidad (ej: "Salario (USD/mes)").
- Las escalas deben ser uniformes. No mezcles escala lineal con logarítmica sin avisar.
- El título debe explicar de qué hablás. "Salarios mensuales por carrera, UNIMO 2026" es mejor que "Gráfico 1".
- Si comparás grupos, usá el mismo eje para todos. Comparar "alturas" entre tres grupos con tres ejes distintos es engaño.
4.3 Tablas de frecuencia
📐 Fundamento
Antes de graficar datos cuantitativos, casi siempre los agrupás en una tabla de frecuencias.
Pasos para construirla:
- Rango: .
- Número de clases (intervalos): regla práctica de Sturges: . Redondeá hacia arriba. Para , . Para , .
- Amplitud de cada clase: , redondeada hacia arriba para que cubra todo.
- Construir intervalos ( — cerrado por la izquierda, abierto por la derecha, para que un dato no caiga en dos clases).
- Frecuencias: contar cuántos datos van en cada clase.
Tipos de frecuencia:
| Símbolo | Nombre | Qué mide |
|---|---|---|
| Frecuencia absoluta | Cuántos datos en la clase | |
| Frecuencia relativa | Proporción (entre 0 y 1) | |
| Frecuencia acumulada | Cuántos datos hasta la clase inclusive | |
| Frecuencia acumulada relativa | Proporción acumulada |
Ejemplo. Pesos (kg) de 30 estudiantes:
55 60 62 64 65 67 68 68 69 70
70 71 72 72 73 74 74 75 76 77
77 78 78 79 80 81 82 83 85 88
Rango: . Sturges: clases. Amplitud: .
Tabla:
| Clase | Marca | |||
|---|---|---|---|---|
| [55, 61) | 58 | 2 | 0.067 | 2 |
| [61, 67) | 64 | 4 | 0.133 | 6 |
| [67, 73) | 70 | 9 | 0.300 | 15 |
| [73, 79) | 76 | 8 | 0.267 | 23 |
| [79, 85) | 82 | 5 | 0.167 | 28 |
| [85, 91) | 88 | 2 | 0.067 | 30 |
Lectura: La mayor parte (9 + 8 = 17 personas, casi 60%) cae entre 67 y 79 kg. La distribución es razonablemente simétrica.
4.4 Histograma
📐 Fundamento
El histograma es la gráfica clásica para datos cuantitativos continuos. Cada clase se dibuja como una barra adyacente (sin espacio entre barras), con altura proporcional a la frecuencia.
Diferencia con el gráfico de barras:
- Barras → datos categóricos. Las barras tienen separación entre sí (el espacio recuerda que las categorías son distintas).
- Histograma → datos continuos. Las barras se tocan (el eje horizontal es una recta numérica continua).
Cómo elegir el número de clases. Pocas clases ocultan la forma (un histograma de 2 barras casi nunca dice nada). Demasiadas clases hacen el gráfico ruidoso (barras de altura 1 o 0). Sturges, raíz cuadrada () y la regla de Freedman-Diaconis son heurísticas razonables; al final, probá varias y elegí la que muestre la forma con claridad.
Histograma de frecuencia relativa. Si en lugar de la frecuencia ponés la frecuencia relativa , las áreas suman 1 (con clases de ancho 1) o se vuelven una densidad estimada (escalando por el ancho). Esto prepara el terreno para distribuciones de probabilidad continuas que vas a ver en estadística inferencial.
4.5 Polígono de frecuencia y ojiva
📐 Fundamento
Polígono de frecuencia. Conectás los puntos con segmentos rectos. Útil para superponer varias distribuciones (cosa que con histogramas se vuelve ilegible).
Ojiva (polígono de frecuencias acumuladas). Conectás los puntos donde es el límite superior de la clase . Crece monótonamente de 0 a .
Para qué sirve la ojiva:
- Leer percentiles gráficamente. Para encontrar la mediana (): hallás dónde la ojiva cruza la línea horizontal en .
- Calcular cuántos datos están por debajo (o por encima) de un valor.
Ejemplo de lectura. Para los 30 pesos del ejemplo anterior, la ojiva pasa por:
| 61 | 2 |
| 67 | 6 |
| 73 | 15 |
| 79 | 23 |
| 85 | 28 |
| 91 | 30 |
¿Cuál es la mediana aproximada? , y la ojiva alcanza 15 justo en kg. Entonces . (En los datos crudos, la mediana es , muy cerca.)
4.6 Boxplot (diagrama de caja)
📐 Fundamento
Ya conocés del capítulo anterior. Repaso visual:
Q₁ M Q₃
┌──────┼──────┐
────────────┤ │ ├────────────●
└──────┴──────┘ ↑
outlier
↑ ↑
bigote inferior bigote superior
(hasta el dato no-outlier (idem)
más bajo)
Por qué el boxplot es tan útil:
- Muestra cinco números clave (mín no-outlier, , mediana, , máx no-outlier) más outliers.
- Es resistente a outliers (la caja no se mueve por ellos).
- Compara grupos instantáneamente: poné varios boxplots lado a lado y ves diferencias en mediana y dispersión de un vistazo.
Cosas que NO te dice el boxplot:
- Si la distribución es bimodal (dos picos): el boxplot la mostraría igual que una unimodal con el mismo IQR.
- La forma exacta dentro de la caja: solo da la mediana, no el "perfil" interno.
Por eso a veces se combina con un histograma o un violin plot (boxplot + densidad estimada).
4.7 Diagrama de dispersión (scatter plot)
📐 Fundamento
Cuando tenés dos variables cuantitativas y querés ver si se relacionan, usás un scatter plot: cada par es un punto.
Patrones que vas a buscar:
- Tendencia lineal positiva: crece con .
- Tendencia lineal negativa: decrece con .
- No lineal (curva, exponencial, etc.).
- Sin relación: una nube dispersa.
- Outliers: puntos lejos del patrón general.
- Agrupamientos (clusters): dos o más grupos diferenciados.
Coeficiente de correlación de Pearson:
Va de (anticorrelación perfecta) a (correlación perfecta), pasando por (sin correlación lineal).
¡Trampa famosa! Correlación NO implica causalidad. Que dos variables suban juntas no significa que una cause la otra; pueden tener una causa común, o ser coincidencia. El consumo de chocolate por país y los Premios Nobel per cápita están correlacionados — ¡no comás chocolate esperando un Nobel!
Otra trampa: mide solo relación lineal. Una relación curva fuerte puede dar . Mirá siempre el scatter, no solo el número.
4.8 Gráficas para datos categóricos
Gráfico de barras. Para frecuencias por categoría. Las barras pueden ir verticales u horizontales (horizontales son mejores cuando hay muchas categorías o nombres largos).
Gráfico de torta (pie chart). Para mostrar proporciones de un total. Usalo con moderación — los humanos somos malos comparando ángulos. Si tenés más de 4-5 categorías, un gráfico de barras es siempre mejor.
Tabla de contingencia + gráfico de barras agrupadas. Para dos variables categóricas. Por ejemplo: "carrera" × "género" en UNIMO. Cada combinación es una barra.
4.9 Gráficas que mienten (alfabetización visual)
⚠️ Trampa común
Algunas trampas frecuentes en gráficas mediáticas:
1. Eje truncado. Empezás el eje vertical en 60% en vez de 0%, así una diferencia de 5 puntos parece enorme. Casi todas las gráficas de campañas políticas hacen esto.
2. Gráfica 3D innecesaria. Las tortas 3D distorsionan los tamaños de los pedazos según la perspectiva. Las barras 3D son apenas mejores. Reglá: 3D solo si aportás una tercera variable real, no por estética.
3. Áreas vs longitudes. Si "duplicás un país" mostrando un mapa el doble de alto y ancho, la área es 4 veces, no 2. Engaña visualmente.
4. Escala logarítmica sin avisar. En log scale, un crecimiento exponencial parece lineal. Útil para datos con varias órdenes de magnitud, pero confuso si no se anuncia.
5. "Cherry-picking" del rango temporal. Mostrá el período donde tu tesis se ve bien, ocultá el resto.
Defensa. Cuando veas una gráfica:
- ¿Empieza el eje vertical en 0?
- ¿Las escalas son lineales?
- ¿Cuál es el rango de fechas y por qué?
- ¿La fuente es confiable?
Estas preguntas son la diferencia entre lectura crítica y consumo pasivo.
4.10 Visualización con Python (vistazo)
Si ya conocés Python (Programación I), las herramientas estándar son:
import matplotlib.pyplot as plt
datos = [55, 60, 62, ..., 88]
# Histograma
plt.hist(datos, bins=6)
plt.xlabel("Peso (kg)")
plt.ylabel("Frecuencia")
plt.title("Distribución de pesos - 30 estudiantes")
plt.show()
# Boxplot
plt.boxplot(datos)
plt.show()
# Scatter plot de dos variables
import numpy as np
x = np.random.rand(100)
y = 2 * x + np.random.normal(0, 0.1, 100)
plt.scatter(x, y)
plt.xlabel("x")
plt.ylabel("y")
plt.show()
matplotlib es la biblioteca clásica. seaborn (encima de matplotlib) tiene gráficos estadísticos más vistosos por defecto. pandas permite hacer histogramas y boxplots directamente desde DataFrames con df.hist(), df.boxplot(). Lo profundizamos en cursos de Análisis de Datos.
4.11 Ejercicios
✏️ Ejercicio 4.1 — Tabla de frecuencias
Las edades de 25 estudiantes de la UNIMO: .
Construí una tabla de frecuencias con 4 clases. Calculá frecuencia absoluta, relativa y acumulada.
Solución
Rango: . 4 clases → amplitud .
| Clase | ||||
|---|---|---|---|---|
| [18, 20) | 19 | 13 | 0.52 | 13 |
| [20, 22) | 21 | 7 | 0.28 | 20 |
| [22, 24) | 23 | 4 | 0.16 | 24 |
| [24, 26) | 25 | 1 | 0.04 | 25 |
Mayoría joven (52% < 20). Asimetría positiva (cola hacia las edades altas).
✏️ Ejercicio 4.2 — Lectura de boxplot
Te muestran un boxplot de salarios mensuales (en USD) de 100 ingenieros recién graduados. La caja va de $450 a $700, la línea de la mediana en $550, los bigotes desde $350 hasta $900, y hay tres puntos sueltos en $1500, $1700 y $2000.
a. ¿Cuál es el IQR? b. ¿Cuántas personas ganan menos de $450? c. ¿Es la distribución simétrica? d. ¿Qué pasa con los tres puntos sueltos?
Solución
a. IQR = .
b. Aproximadamente 25, el 25% por debajo de ().
c. Asimétrica positiva. El bigote superior es más largo (de 700 a 900 = 200) que el inferior (450 - 350 = 100), y la mediana está más cerca de que de . Además hay outliers solo arriba.
d. Son outliers según la regla 1.5·IQR (límite superior: ). Probablemente son salarios de personas con habilidades raras (especialistas en cloud, IA) o trabajos para empresas extranjeras.
✏️ Ejercicio 4.3 — Detectar engaño visual
Una empresa publica una gráfica de barras con el "crecimiento" de sus ventas. El eje vertical va de 980 a 1020 (unidades vendidas). Las barras de los meses son: 985, 990, 995, 1010, 1015. Visualmente la última barra parece 3 veces más grande que la primera.
a. ¿Cuál es el crecimiento real (porcentual) entre el primer y último mes? b. ¿Por qué la gráfica engaña? c. ¿Cómo deberían dibujarla?
Solución
a. .
b. Porque el eje empieza en 980, así la diferencia de 30 unidades parece enorme cuando en realidad es ~3% del total.
c. Con eje vertical desde 0 hasta 1020. Las barras se verían casi iguales — la realidad. Si quieren mostrar el crecimiento, podrían hacer un gráfico diferente (% de crecimiento intermensual), no una barra cuyo eje arranca en 980.
✏️ Ejercicio 4.4 — Histograma vs. boxplot
Tenés dos conjuntos de datos:
- A: (10 valores).
- B: (10 valores).
a. Calculá media y mediana de cada uno. b. Calculá e IQR de cada uno. c. ¿Los boxplots se verían iguales o distintos? ¿Y los histogramas?
Solución
A: media = mediana = 5.5. (mediana de 1..5), (mediana de 6..10), IQR = 5.
B: media = . Mediana = 5. (mediana de mitad inferior), , IQR = 8.
c. Boxplots distintos (B tiene IQR 8, A tiene 5). Histogramas muy distintos: A es uniforme, B es trimodal (tres picos en 1, 5, 9). El boxplot capta parte de la diferencia (la dispersión) pero esconde la trimodalidad — solo el histograma la muestra.
Lección: Boxplot e histograma son complementarios; usalos juntos.
4.12 Para profundizar
- Tufte, The Visual Display of Quantitative Information (1983). El clásico absoluto. Lectura para toda la vida.
- Cairo, The Truthful Art (2016). Visualización moderna y ética.
- Tutorial de matplotlib: https://matplotlib.org/stable/tutorials/index.html
- Ejercicios interactivos: https://www.khanacademy.org/math/statistics-probability — sección "Análisis de datos univariados".
4.13 Cierre del libro
Al terminar este capítulo cerrás el ciclo básico de la estadística descriptiva:
- Reconociste tipos de datos (capítulo 1).
- Resumiste con medidas de tendencia central (capítulo 2).
- Cuantificaste la dispersión (capítulo 3).
- Visualizaste la distribución entera (capítulo 4).
El paso siguiente es Estadística Inferencial (otro libro, EST215). Ahí pasás de "describir lo que tengo" a "concluir sobre lo que no veo": probabilidad, distribución normal, intervalos de confianza, pruebas de hipótesis. La descripción es la base; la inferencia es el edificio.
Definiciones nuevas: tabla de frecuencia, frecuencia absoluta, relativa, acumulada, marca de clase, regla de Sturges, histograma, polígono de frecuencias, ojiva, scatter plot, correlación, eje truncado.