Tipos de datos
"Garbage in, garbage out." — Charles Babbage, atribuido (probablemente apócrifo).
Qué vas a aprender en este capítulo
Antes de calcular promedios, dispersiones o gráficas, tenés que saber con qué tipo de dato estás trabajando. No todas las operaciones tienen sentido sobre todos los datos. Promediar números de teléfono, por ejemplo, es absurdo — aunque sean números. Este capítulo te enseña a clasificar los datos correctamente para no cometer ese error.
1.1 La idea: no todos los números son números
💡 Intuición
Mirá estos cuatro datos sobre cinco estudiantes:
| Estudiante | Carrera (1=Sistemas, 2=Civil, 3=Industrial) | Ranking en su clase | Temperatura promedio del aula (°C) | Salario futuro estimado ($) |
|---|---|---|---|---|
| Ana | 1 | 3° | 26 | 800 |
| Beto | 2 | 1° | 25 | 1200 |
| Cris | 1 | 5° | 26 | 600 |
| Dani | 3 | 2° | 27 | 950 |
| Eva | 2 | 4° | 25 | 1100 |
Las cuatro columnas son números. Pero no todas las operaciones tienen sentido en cada una:
-
¿Cuánto da el promedio de carrera? . ¿"1.8 carreras"? Eso no significa nada. La columna usa números como etiquetas — los números 1, 2, 3 son intercambiables con "azul", "rojo", "verde".
-
¿Cuánto da el promedio de ranking? . Tiene cierto sentido — pero ojo, el ranking dice orden, no distancia. Entre el 1° y el 2° no hay necesariamente la misma distancia que entre el 4° y el 5°. Promediar es discutible.
-
¿Cuánto da el promedio de temperatura? °C. Tiene sentido total. La temperatura es un dato genuinamente numérico, donde sumar, restar y promediar son operaciones legítimas.
-
¿Cuánto da el promedio de salario? . Tiene sentido total, y además podés decir cosas como "Beto gana el doble que Cris" — porque el salario tiene un cero genuino (cero salario = no tener ingreso), distinto a la temperatura (0°C es solo el punto de congelación del agua, no la "ausencia" de temperatura).
El tipo de dato determina qué podés hacer con él. Cualquier análisis que empieces sin clasificar tus datos correctamente puede producir conclusiones técnicamente correctas pero conceptualmente sin sentido.
1.2 La gran división: cualitativo vs cuantitativo
📐 Fundamento
Variable cualitativa (o categórica). Toma valores que son categorías, no cantidades. No tiene sentido sumarlos ni promediarlos.
Ejemplos: género, religión, marca de coche, carrera universitaria, color de pelo, departamento de El Salvador, talla de camisa (S, M, L, XL).
Variable cuantitativa. Toma valores que son cantidades medibles. Sí tiene sentido sumar, restar, promediar.
Ejemplos: edad, peso, altura, salario, número de hijos, calificación en un examen, presión arterial.
Las cuantitativas se subdividen en:
-
Discretas: solo toman ciertos valores aislados, típicamente enteros. Número de hijos puede ser 0, 1, 2, 3... pero no 2.7. Cantidad de errores en un examen. Cantidad de personas en un cuarto.
-
Continuas: pueden tomar cualquier valor en un intervalo. Peso puede ser 67.3 kg, 67.32 kg, 67.319 kg... la precisión depende del instrumento. Altura, temperatura, tiempo, distancia.
Test rápido. "¿Tiene sentido pedir un valor entre dos vecinos?" Si sí, es continua. ¿2.5 hijos? Sin sentido — discreta. ¿1.74 metros? Sí — continua.
Trampita común: que un dato esté medido con valores discretos (porque tu báscula tiene precisión de 0.1 kg) no lo hace discreto. La variable subyacente (peso) es continua; tu medición es solo una aproximación.
1.3 Las cuatro escalas de medida (Stevens, 1946)
📐 Fundamento
Stanley S. Stevens, psicólogo de Harvard, propuso en 1946 una clasificación más fina que distingue cuatro escalas según las operaciones permitidas. Es la clasificación estándar en estadística:
Escala nominal (categorías sin orden).
- Las categorías son etiquetas distintas, sin orden natural.
- Operaciones permitidas: contar frecuencias, calcular moda. NADA MÁS.
- Ejemplos: nombre, departamento de El Salvador, tipo sanguíneo, religión, marca de coche.
- Aunque uses números (1=Católico, 2=Evangélico, 3=Otro), siguen siendo etiquetas. No promediés.
Escala ordinal (categorías con orden, sin distancias).
- Las categorías tienen orden, pero las distancias entre categorías no son comparables.
- Operaciones permitidas: las anteriores, más mediana y rangos.
- Ejemplos: ranking de la clase (1°, 2°, 3°, ...), nivel de satisfacción (muy malo, malo, regular, bueno, excelente), nivel educativo (primaria, secundaria, universidad), tallas (S, M, L).
- Sabés que 1° es mejor que 2°, pero no sabés cuánto mejor. La distancia "1° → 2°" no es comparable a la "2° → 3°".
Escala intervalar (orden + distancias, sin cero absoluto).
- Las distancias entre valores son comparables, pero el cero NO significa "ausencia".
- Operaciones permitidas: las anteriores, más sumas, restas, media aritmética.
- NO permitido: ratios (multiplicar, decir "el doble").
- Ejemplos clásicos: temperatura en Celsius o Fahrenheit (0°C no es "sin temperatura"), año del calendario gregoriano (año 0 no es el origen del tiempo).
- Decir "30°C es el doble de calor que 15°C" es falso — porque 0°C no es ausencia de calor. (En Kelvin sí podrías hacerlo.)
Escala de razón (orden + distancias + cero absoluto).
- Cero significa genuinamente "ausencia". Todas las operaciones aritméticas tienen sentido.
- Operaciones permitidas: todas, incluido ratios.
- Ejemplos: peso, altura, edad, salario, distancia, número de hijos, tiempo transcurrido, temperatura en Kelvin.
- Decir "Beto gana el doble que Cris" o "este recorrido es 3 veces más largo que el otro" tiene pleno sentido.
Tabla resumen.
| Escala | Etiquetas | Orden | Distancias | Cero absoluto | Ejemplos |
|---|---|---|---|---|---|
| Nominal | ✓ | ✗ | ✗ | ✗ | Carrera, color, religión |
| Ordinal | ✓ | ✓ | ✗ | ✗ | Ranking, satisfacción, talla |
| Intervalar | ✓ | ✓ | ✓ | ✗ | Temperatura °C, año |
| Razón | ✓ | ✓ | ✓ | ✓ | Peso, salario, edad, tiempo |
1.4 Por qué la clasificación importa
🛠️ En la práctica
Caso 1: La encuesta universitaria mal interpretada.
Una universidad encuesta a estudiantes pidiendo calificar la calidad del comedor en escala 1-5 (1 = muy malo, 5 = excelente). Calculan el promedio: 3.4. Concluyen "calidad regular".
Problema: Likert es una escala ordinal. Las distancias entre niveles no son comparables. ¿Es la diferencia entre "regular" y "bueno" igual que entre "malo" y "regular"? Probablemente no — uno es subir de aceptable a positivo, el otro de aceptable a inaceptable.
Lo correcto: reportar la mediana (= 3, "regular") y la distribución de frecuencias (cuántos respondieron cada nivel). Las medias en escalas ordinales son técnicamente incorrectas, aunque se usan masivamente en la práctica.
Caso 2: La feature de machine learning.
Programás un modelo de clasificación que predice "carrera del estudiante" a partir de datos. Tenés la variable "carrera" codificada como 1=Sistemas, 2=Civil, 3=Industrial. La metés directo al modelo.
Problema: el modelo va a tratarla como escala intervalar/razón. Va a "aprender" que Industrial (3) es 3 veces Sistemas (1), o que Civil (2) está justo entre las otras dos. Eso es nominal codificado como número — el modelo le impone una estructura de orden que no existe.
Lo correcto: one-hot encoding. Convertir la columna "carrera" en tres columnas binarias: es_sistemas, es_civil, es_industrial, cada una con valores 0 o 1.
Caso 3: El rancking deportivo.
Un periodista ve que el equipo A ganó 5° lugar el año pasado y este año quedó en 1°. Otro equipo B pasó del 10° al 6°. Concluye "ambos mejoraron 4 puestos, igual de bien".
Problema: los rankings son ordinales. Pasar de 5° a 1° (ganar la liga) puede valer mucho más que pasar de 10° a 6° (mejorar dentro de la mediocridad). Las distancias no son uniformes.
Lo correcto: mirar también las puntuaciones absolutas, no solo las posiciones.
Moraleja transversal: identificá la escala de cada variable ANTES de hacer cualquier análisis. La técnica estadística correcta depende de la escala, no de si los datos "se ven como números".
1.5 Datos en bruto vs datos procesados
📐 Fundamento
Aparte del tipo, los datos también se clasifican por su procesamiento:
Datos en bruto (raw data). Sin procesar. Cada observación individual: "Ana mide 1.65 m, Beto mide 1.72 m, ..."
Datos agrupados. Resumidos en categorías o intervalos:
| Altura (m) | Frecuencia |
|---|---|
| [1.50, 1.60) | 8 |
| [1.60, 1.70) | 22 |
| [1.70, 1.80) | 14 |
| [1.80, 1.90) | 5 |
Cuando tenés muchísimos datos (un censo, por ejemplo), trabajar con bruto es impráctico. Se agrupan en intervalos y se opera sobre las frecuencias. Los próximos capítulos te muestran cómo calcular promedios y dispersiones de datos agrupados — fórmulas ligeramente distintas a las de datos brutos.
Población vs muestra.
- Población: el conjunto completo que te interesa estudiar (todos los estudiantes de una universidad).
- Muestra: un subconjunto representativo (200 estudiantes elegidos al azar).
En estadística descriptiva, lo que vas a hacer son resúmenes — generalmente sobre muestras, porque la población es típicamente inaccesible. La estadística inferencial (otro libro, otro semestre) se ocupa de inferir propiedades de la población a partir de la muestra.
1.6 Resumen visual
| Si tu variable es... | Operaciones legítimas |
|---|---|
| Nominal | Conteo, moda |
| Ordinal | Conteo, moda, mediana, percentiles |
| Intervalar | Las anteriores + media, varianza, desviación estándar |
| Razón | Todas + ratios ("el doble", "el triple") |
1.7 Ejercicios
✏️ Ejercicio 1.1 — Clasificá
Para cada variable, identificá si es cualitativa o cuantitativa, y especificá la escala (nominal, ordinal, intervalar, razón).
a. Número de hermanos de un estudiante. b. Marca preferida de bebida (Coca, Pepsi, Tropical, otra). c. Calificación final del semestre (de 0 a 10). d. Posición en una carrera de 100 m (1°, 2°, 3°, ...). e. Hora del día (en formato 24 h: 0, 1, ..., 23). f. Departamento de El Salvador donde vive. g. Tiempo transcurrido desde el inicio de un evento (en segundos).
Solución
a. Cuantitativa, discreta, escala de razón (cero absoluto: tener cero hermanos tiene sentido). b. Cualitativa, nominal. c. Cuantitativa, continua, escala intervalar (la nota 0 NO significa "ausencia de conocimiento", es solo el extremo de la escala — debate filosófico, pero en la práctica se usa como intervalar). Algunos autores la consideran de razón. d. Cualitativa (numérica pero categórica), escala ordinal. Promediar posiciones es engañoso. e. Cuantitativa, escala intervalar (las 12:00 no son "el doble" de las 6:00). f. Cualitativa, nominal. g. Cuantitativa, continua, escala de razón (cero segundos = inicio del evento, ausencia de tiempo transcurrido).
✏️ Ejercicio 1.2 — ¿Tiene sentido?
Para cada operación, decí si tiene sentido y por qué.
a. Promediar los códigos de carrera (1=Sistemas, 2=Civil, 3=Industrial) de tu cohorte. b. Calcular la mediana del nivel de satisfacción (1-5) en una encuesta. c. Decir "este invierno fue el doble de frío que el verano" comparando las temperaturas en °C. d. Promediar las alturas de los estudiantes de una clase.
Solución
a. No tiene sentido. Carrera es nominal — los números son etiquetas. El "promedio" 1.8 no se traduce a nada interpretable. b. Sí tiene sentido. El nivel de satisfacción es ordinal; la mediana es la operación legítima para ordinales (busca el valor que parte la muestra a la mitad). c. No tiene sentido. Celsius es escala intervalar (0°C no es "ausencia de calor"). Los ratios no aplican. La afirmación es incorrecta — habría que pasar a Kelvin. d. Sí tiene sentido. Altura es escala de razón. Todas las operaciones aritméticas son legítimas.
✏️ Ejercicio 1.3 — Codificá una variable
Tenés una variable "talla de camisa" con valores S, M, L, XL. Querés meterla a un análisis estadístico.
a. ¿Qué escala tiene esta variable? b. ¿Está bien codificarla como S=1, M=2, L=3, XL=4 y meterla así a una regresión lineal? c. ¿Cómo la codificarías para un modelo de machine learning?
Solución
a. Ordinal. Hay orden (S < M < L < XL) pero las distancias entre tallas no son uniformes — la diferencia "S→M" no es la misma que "L→XL".
b. Para regresión lineal, depende. Codificar como 1, 2, 3, 4 le impone al modelo la suposición de que las distancias son uniformes. A veces eso es aceptable (aproximación razonable), a veces no. En análisis serios, mejor hacer codificación ordinal explícita o dummy variables.
c. Para ML, dos opciones aceptables:
- One-hot encoding: cuatro columnas binarias (es_S, es_M, es_L, es_XL). Pierde la información de orden.
- Codificación ordinal explícita: S=1, M=2, L=3, XL=4 con la advertencia documentada de que asumimos distancias uniformes.
La primera es más segura y común; la segunda mantiene más información si la asunción es razonable.
✏️ Ejercicio 1.4 — Pensalo
¿Es la variable "edad" siempre cuantitativa? Pensá en estos tres usos:
a. La edad exacta en años, meses y días: "35 años, 2 meses, 14 días". b. La edad en años cumplidos al último cumpleaños: 35. c. El grupo etario reportado en una encuesta: niño, adolescente, adulto, adulto mayor.
Solución
a. Cuantitativa, continua, escala de razón. Es genuinamente una cantidad continua de tiempo.
b. Cuantitativa, discreta (solo enteros), escala de razón (técnicamente — aunque algunos autores la tratan como intervalar). La continuidad subyacente se perdió al redondear.
c. Cualitativa, ordinal. Hay orden pero perdió la cantidad. El paso de "adolescente" a "adulto" no es la misma "distancia" que de "adulto" a "adulto mayor".
Moraleja: la misma variable subyacente (edad) puede aparecer en distintas escalas según cómo la mediste y la codificaste. Lo que importa al analizarla es la escala con la que llega a tu base de datos, no la conceptual.
1.8 Para profundizar
- Libro: Mendenhall, Beaver & Beaver, Introducción a la probabilidad y estadística. Capítulo 1 cubre tipos de datos en detalle, con ejemplos abundantes.
- Artículo histórico: Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103. Hay traducciones en español; vale la pena leerlo si te interesa la filosofía detrás de la clasificación.
- Próximo capítulo: Medidas de tendencia central — media, mediana, moda. Ya con los tipos de datos clasificados, vas a saber cuál usar en cada caso.
Definiciones nuevas en este capítulo: variable cualitativa, variable cuantitativa, discreta, continua, escala nominal, ordinal, intervalar, razón, datos brutos, datos agrupados, población, muestra.