Tipos de datos

"Garbage in, garbage out." — Charles Babbage, atribuido (probablemente apócrifo).

Qué vas a aprender en este capítulo

Antes de calcular promedios, dispersiones o gráficas, tenés que saber con qué tipo de dato estás trabajando. No todas las operaciones tienen sentido sobre todos los datos. Promediar números de teléfono, por ejemplo, es absurdo — aunque sean números. Este capítulo te enseña a clasificar los datos correctamente para no cometer ese error.

1.1 La idea: no todos los números son números

💡 Intuición

Mirá estos cuatro datos sobre cinco estudiantes:

Estudiante Carrera (1=Sistemas, 2=Civil, 3=Industrial) Ranking en su clase Temperatura promedio del aula (°C) Salario futuro estimado ($)
Ana 1 26 800
Beto 2 25 1200
Cris 1 26 600
Dani 3 27 950
Eva 2 25 1100

Las cuatro columnas son números. Pero no todas las operaciones tienen sentido en cada una:

  • ¿Cuánto da el promedio de carrera? (1+2+1+3+2)/5=1.8(1 + 2 + 1 + 3 + 2)/5 = 1.8. ¿"1.8 carreras"? Eso no significa nada. La columna usa números como etiquetas — los números 1, 2, 3 son intercambiables con "azul", "rojo", "verde".

  • ¿Cuánto da el promedio de ranking? (3+1+5+2+4)/5=3(3+1+5+2+4)/5 = 3. Tiene cierto sentido — pero ojo, el ranking dice orden, no distancia. Entre el 1° y el 2° no hay necesariamente la misma distancia que entre el 4° y el 5°. Promediar es discutible.

  • ¿Cuánto da el promedio de temperatura? 25.825.8 °C. Tiene sentido total. La temperatura es un dato genuinamente numérico, donde sumar, restar y promediar son operaciones legítimas.

  • ¿Cuánto da el promedio de salario? 930930. Tiene sentido total, y además podés decir cosas como "Beto gana el doble que Cris" — porque el salario tiene un cero genuino (cero salario = no tener ingreso), distinto a la temperatura (0°C es solo el punto de congelación del agua, no la "ausencia" de temperatura).

El tipo de dato determina qué podés hacer con él. Cualquier análisis que empieces sin clasificar tus datos correctamente puede producir conclusiones técnicamente correctas pero conceptualmente sin sentido.

1.2 La gran división: cualitativo vs cuantitativo

📐 Fundamento

Variable cualitativa (o categórica). Toma valores que son categorías, no cantidades. No tiene sentido sumarlos ni promediarlos.

Ejemplos: género, religión, marca de coche, carrera universitaria, color de pelo, departamento de El Salvador, talla de camisa (S, M, L, XL).

Variable cuantitativa. Toma valores que son cantidades medibles. Sí tiene sentido sumar, restar, promediar.

Ejemplos: edad, peso, altura, salario, número de hijos, calificación en un examen, presión arterial.

Las cuantitativas se subdividen en:

  • Discretas: solo toman ciertos valores aislados, típicamente enteros. Número de hijos puede ser 0, 1, 2, 3... pero no 2.7. Cantidad de errores en un examen. Cantidad de personas en un cuarto.

  • Continuas: pueden tomar cualquier valor en un intervalo. Peso puede ser 67.3 kg, 67.32 kg, 67.319 kg... la precisión depende del instrumento. Altura, temperatura, tiempo, distancia.

Test rápido. "¿Tiene sentido pedir un valor entre dos vecinos?" Si sí, es continua. ¿2.5 hijos? Sin sentido — discreta. ¿1.74 metros? Sí — continua.

Trampita común: que un dato esté medido con valores discretos (porque tu báscula tiene precisión de 0.1 kg) no lo hace discreto. La variable subyacente (peso) es continua; tu medición es solo una aproximación.

1.3 Las cuatro escalas de medida (Stevens, 1946)

📐 Fundamento

Stanley S. Stevens, psicólogo de Harvard, propuso en 1946 una clasificación más fina que distingue cuatro escalas según las operaciones permitidas. Es la clasificación estándar en estadística:

Escala nominal (categorías sin orden).

  • Las categorías son etiquetas distintas, sin orden natural.
  • Operaciones permitidas: contar frecuencias, calcular moda. NADA MÁS.
  • Ejemplos: nombre, departamento de El Salvador, tipo sanguíneo, religión, marca de coche.
  • Aunque uses números (1=Católico, 2=Evangélico, 3=Otro), siguen siendo etiquetas. No promediés.

Escala ordinal (categorías con orden, sin distancias).

  • Las categorías tienen orden, pero las distancias entre categorías no son comparables.
  • Operaciones permitidas: las anteriores, más mediana y rangos.
  • Ejemplos: ranking de la clase (1°, 2°, 3°, ...), nivel de satisfacción (muy malo, malo, regular, bueno, excelente), nivel educativo (primaria, secundaria, universidad), tallas (S, M, L).
  • Sabés que 1° es mejor que 2°, pero no sabés cuánto mejor. La distancia "1° → 2°" no es comparable a la "2° → 3°".

Escala intervalar (orden + distancias, sin cero absoluto).

  • Las distancias entre valores son comparables, pero el cero NO significa "ausencia".
  • Operaciones permitidas: las anteriores, más sumas, restas, media aritmética.
  • NO permitido: ratios (multiplicar, decir "el doble").
  • Ejemplos clásicos: temperatura en Celsius o Fahrenheit (0°C no es "sin temperatura"), año del calendario gregoriano (año 0 no es el origen del tiempo).
  • Decir "30°C es el doble de calor que 15°C" es falso — porque 0°C no es ausencia de calor. (En Kelvin sí podrías hacerlo.)

Escala de razón (orden + distancias + cero absoluto).

  • Cero significa genuinamente "ausencia". Todas las operaciones aritméticas tienen sentido.
  • Operaciones permitidas: todas, incluido ratios.
  • Ejemplos: peso, altura, edad, salario, distancia, número de hijos, tiempo transcurrido, temperatura en Kelvin.
  • Decir "Beto gana el doble que Cris" o "este recorrido es 3 veces más largo que el otro" tiene pleno sentido.

Tabla resumen.

Escala Etiquetas Orden Distancias Cero absoluto Ejemplos
Nominal Carrera, color, religión
Ordinal Ranking, satisfacción, talla
Intervalar Temperatura °C, año
Razón Peso, salario, edad, tiempo

1.4 Por qué la clasificación importa

🛠️ En la práctica

Caso 1: La encuesta universitaria mal interpretada.

Una universidad encuesta a estudiantes pidiendo calificar la calidad del comedor en escala 1-5 (1 = muy malo, 5 = excelente). Calculan el promedio: 3.4. Concluyen "calidad regular".

Problema: Likert es una escala ordinal. Las distancias entre niveles no son comparables. ¿Es la diferencia entre "regular" y "bueno" igual que entre "malo" y "regular"? Probablemente no — uno es subir de aceptable a positivo, el otro de aceptable a inaceptable.

Lo correcto: reportar la mediana (= 3, "regular") y la distribución de frecuencias (cuántos respondieron cada nivel). Las medias en escalas ordinales son técnicamente incorrectas, aunque se usan masivamente en la práctica.

Caso 2: La feature de machine learning.

Programás un modelo de clasificación que predice "carrera del estudiante" a partir de datos. Tenés la variable "carrera" codificada como 1=Sistemas, 2=Civil, 3=Industrial. La metés directo al modelo.

Problema: el modelo va a tratarla como escala intervalar/razón. Va a "aprender" que Industrial (3) es 3 veces Sistemas (1), o que Civil (2) está justo entre las otras dos. Eso es nominal codificado como número — el modelo le impone una estructura de orden que no existe.

Lo correcto: one-hot encoding. Convertir la columna "carrera" en tres columnas binarias: es_sistemas, es_civil, es_industrial, cada una con valores 0 o 1.

Caso 3: El rancking deportivo.

Un periodista ve que el equipo A ganó 5° lugar el año pasado y este año quedó en 1°. Otro equipo B pasó del 10° al 6°. Concluye "ambos mejoraron 4 puestos, igual de bien".

Problema: los rankings son ordinales. Pasar de 5° a 1° (ganar la liga) puede valer mucho más que pasar de 10° a 6° (mejorar dentro de la mediocridad). Las distancias no son uniformes.

Lo correcto: mirar también las puntuaciones absolutas, no solo las posiciones.

Moraleja transversal: identificá la escala de cada variable ANTES de hacer cualquier análisis. La técnica estadística correcta depende de la escala, no de si los datos "se ven como números".

1.5 Datos en bruto vs datos procesados

📐 Fundamento

Aparte del tipo, los datos también se clasifican por su procesamiento:

Datos en bruto (raw data). Sin procesar. Cada observación individual: "Ana mide 1.65 m, Beto mide 1.72 m, ..."

Datos agrupados. Resumidos en categorías o intervalos:

Altura (m) Frecuencia
[1.50, 1.60) 8
[1.60, 1.70) 22
[1.70, 1.80) 14
[1.80, 1.90) 5

Cuando tenés muchísimos datos (un censo, por ejemplo), trabajar con bruto es impráctico. Se agrupan en intervalos y se opera sobre las frecuencias. Los próximos capítulos te muestran cómo calcular promedios y dispersiones de datos agrupados — fórmulas ligeramente distintas a las de datos brutos.

Población vs muestra.

  • Población: el conjunto completo que te interesa estudiar (todos los estudiantes de una universidad).
  • Muestra: un subconjunto representativo (200 estudiantes elegidos al azar).

En estadística descriptiva, lo que vas a hacer son resúmenes — generalmente sobre muestras, porque la población es típicamente inaccesible. La estadística inferencial (otro libro, otro semestre) se ocupa de inferir propiedades de la población a partir de la muestra.

1.6 Resumen visual

Árbol de clasificación de tipos de datos: cualitativa (nominal, ordinal) y cuantitativa (discreta, continua), de menos a más operaciones permitidas. ¿Qué tipo de dato? Cualitativa categorías Cuantitativa cantidades Nominal sin orden natural (color, género) Ordinal con orden (nivel educativo) Discreta enteros aislados (N° de hijos) Continua cualquier valor real (altura, peso) Más restrictiva (menos operaciones) Más rica (más operaciones)
Si tu variable es... Operaciones legítimas
Nominal Conteo, moda
Ordinal Conteo, moda, mediana, percentiles
Intervalar Las anteriores + media, varianza, desviación estándar
Razón Todas + ratios ("el doble", "el triple")

1.7 Ejercicios

✏️ Ejercicio 1.1 — Clasificá

Para cada variable, identificá si es cualitativa o cuantitativa, y especificá la escala (nominal, ordinal, intervalar, razón).

a. Número de hermanos de un estudiante. b. Marca preferida de bebida (Coca, Pepsi, Tropical, otra). c. Calificación final del semestre (de 0 a 10). d. Posición en una carrera de 100 m (1°, 2°, 3°, ...). e. Hora del día (en formato 24 h: 0, 1, ..., 23). f. Departamento de El Salvador donde vive. g. Tiempo transcurrido desde el inicio de un evento (en segundos).

✏️ Ejercicio 1.2 — ¿Tiene sentido?

Para cada operación, decí si tiene sentido y por qué.

a. Promediar los códigos de carrera (1=Sistemas, 2=Civil, 3=Industrial) de tu cohorte. b. Calcular la mediana del nivel de satisfacción (1-5) en una encuesta. c. Decir "este invierno fue el doble de frío que el verano" comparando las temperaturas en °C. d. Promediar las alturas de los estudiantes de una clase.

✏️ Ejercicio 1.3 — Codificá una variable

Tenés una variable "talla de camisa" con valores S, M, L, XL. Querés meterla a un análisis estadístico.

a. ¿Qué escala tiene esta variable? b. ¿Está bien codificarla como S=1, M=2, L=3, XL=4 y meterla así a una regresión lineal? c. ¿Cómo la codificarías para un modelo de machine learning?

✏️ Ejercicio 1.4 — Pensalo

¿Es la variable "edad" siempre cuantitativa? Pensá en estos tres usos:

a. La edad exacta en años, meses y días: "35 años, 2 meses, 14 días". b. La edad en años cumplidos al último cumpleaños: 35. c. El grupo etario reportado en una encuesta: niño, adolescente, adulto, adulto mayor.

1.8 Para profundizar


Definiciones nuevas en este capítulo: variable cualitativa, variable cuantitativa, discreta, continua, escala nominal, ordinal, intervalar, razón, datos brutos, datos agrupados, población, muestra.