Regresión lineal
"Todos los modelos están equivocados, pero algunos son útiles." — George Box.
Qué vas a aprender en este capítulo
La regresión lineal modela la relación entre dos o más variables numéricas. Es la base de casi todos los modelos predictivos: desde predecir el precio de una casa hasta modelar la demanda de pupusas según la temperatura. Este capítulo cubre correlación, regresión simple, evaluación del modelo y sus supuestos. Es también la puerta de entrada al machine learning (regresión logística, redes neuronales son extensiones de estos conceptos).
5.1 Correlación
💡 Intuición
Antes de modelar la relación entre dos variables, querés saber si existe una relación. ¿Las ventas aumentan cuando la temperatura baja? ¿El precio de un producto tiene relación con sus ventas?
El coeficiente de correlación de Pearson () mide la fuerza y dirección de la relación lineal entre dos variables. Va de a :
- : relación lineal perfecta positiva (cuando X sube, Y sube proporcionalmente)
- : relación lineal perfecta negativa (cuando X sube, Y baja)
- : no hay relación lineal (puede haber relación no lineal)
- : correlación fuerte; : moderada; : débil
Trampa: correlación no implica causalidad. El número de helados vendidos correlaciona con los ahogamientos en playas — no porque uno cause lo otro, sino porque ambos aumentan en verano.
📐 Fundamento
Coeficiente de correlación de Pearson:
O equivalentemente (más práctica para cálculo a mano):
Propiedades:
- Adimensional (no tiene unidades)
- Simétrico:
- Solo mide relación lineal — puede ser 0 con relación curvilínea fuerte
Prueba de significancia de :
(no hay correlación poblacional) vs
con grados de libertad.
🛠️ En la práctica
Ejemplo — temperatura y ventas de bebidas:
Un vendedor de bebidas frías registró durante 6 días:
| Día | Temp (°C) | Ventas |
|---|---|---|
| 1 | 25 | 40 |
| 2 | 30 | 55 |
| 3 | 35 | 68 |
| 4 | 28 | 47 |
| 5 | 32 | 60 |
| 6 | 38 | 75 |
,
Correlación casi perfecta. Por cada grado que sube la temperatura, las ventas aumentan casi proporcionalmente.
5.2 Regresión lineal simple
💡 Intuición
La correlación nos dice si hay relación. La regresión nos da la ecuación de esa relación: una recta .
Con esa recta podés:
- Predecir: ¿Cuántas bebidas venderé si la temperatura es 33°C?
- Cuantificar el efecto: ¿En cuánto aumentan las ventas por cada grado de temperatura?
- Entender la estructura: ¿Cuántas ventas espero "de base" (cuando o en el punto de referencia)?
El método de mínimos cuadrados ajusta la recta que minimiza la suma de los cuadrados de los errores (distancias verticales entre los puntos y la recta).
📐 Fundamento
Modelo de regresión lineal simple:
donde es el error aleatorio.
Estimadores de mínimos cuadrados:
Recta ajustada:
Interpretación de los coeficientes:
- (intercepto): valor estimado de cuando . (Cuidado: a veces no tiene sentido en el contexto.)
- (pendiente): cambio estimado en por cada unidad que aumenta .
Residuos:
Son la diferencia entre el valor observado y el predicho por el modelo. Si el modelo es bueno, los residuos deben ser pequeños y aleatorios.
🛠️ En la práctica
Continuando el ejemplo de bebidas:
Recta ajustada:
Interpretación:
- Por cada grado adicional de temperatura, las ventas aumentan en promedio 2.75 bebidas.
- El intercepto () no tiene significado práctico (no vendés bebidas a 0°C).
Predicción: Si la temperatura es 33°C:
bebidas
Se esperan aproximadamente 62 ventas.
En Python:
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array([25, 30, 35, 28, 32, 38]).reshape(-1, 1)
y = np.array([40, 55, 68, 47, 60, 75])
modelo = LinearRegression()
modelo.fit(X, y)
print(f"Intercepto: {modelo.intercept_:.2f}")
print(f"Pendiente: {modelo.coef_[0]:.2f}")
print(f"Predicción a 33°C: {modelo.predict([[33]])[0]:.1f}")
5.3 Evaluación del modelo: R²
💡 Intuición
¿Qué tan bueno es el modelo? El coeficiente de determinación R² responde esa pregunta.
mide qué fracción de la variabilidad de es explicada por el modelo. Va de 0 a 1:
- : el modelo explica toda la variabilidad (predicción perfecta)
- : el modelo no explica nada (como predecir con la media siempre)
- : el modelo explica el 80% de la variabilidad
No existe un "buen" R² universal — depende del campo. En física, es esperable. En ciencias sociales, puede ser un resultado valioso.
📐 Fundamento
Descomposición de la variabilidad:
- : variabilidad total de
- : variabilidad explicada por la regresión
- : variabilidad no explicada (suma de cuadrados del error)
Coeficiente de determinación:
Para regresión simple: (el cuadrado del coeficiente de correlación).
Error estándar de la regresión:
Representa el error promedio de predicción en las unidades de .
Supuestos del modelo (LINEAL):
- Linealidad: La relación entre y es lineal.
- Independencia: Los errores son independientes.
- Normalidad: Los errores siguen distribución normal.
- Equal variance (homocedasticidad): La varianza de los errores es constante para todo .
Verificación: gráfico de residuos vs valores ajustados, QQ-plot de residuos.
🛠️ En la práctica
Ejemplo — ventas de bebidas (continuación):
→
El modelo explica el 99.4% de la variabilidad en las ventas. La temperatura es casi un predictor perfecto en este ejemplo pequeño.
Ejemplo con R² moderado — gasto en publicidad vs ventas:
Una empresa gasta en publicidad (miles de dólares) y registra ventas (miles de dólares):
| Publicidad | Ventas | Residuo | |
|---|---|---|---|
| 10 | 85 | 90 | -5 |
| 15 | 110 | 105 | +5 |
| 20 | 115 | 120 | -5 |
| 25 | 140 | 135 | +5 |
| 30 | 145 | 150 | -5 |
Si y , el modelo explica el 95% de la variabilidad en ventas, con un error estándar de miles de dólares.
Cuidado con R² alto:
Un R² alto no garantiza que el modelo sea correcto. Podés tener R² = 1 con una recta que sigue exactamente los 5 puntos de muestra pero que fracasa al predecir nuevos datos (sobreajuste).
5.4 Predicción e intervalos
📐 Fundamento
Para un valor , la predicción puntual es .
Intervalo de predicción (para un valor individual futuro):
Intervalo de confianza (para la media de dado ):
Diferencia: El IC para la media es más estrecho (menos incertidumbre) que el IP para un valor individual (más incertidumbre). La predicción de un individuo es inherentemente más incierta que la predicción del promedio.
Precaución — extrapolación:
Solo hacer predicciones dentro del rango de los datos. Extrapolación (predecir fuera del rango observado) asume que la tendencia lineal continúa — lo cual raramente es válido lejos de los datos.
5.5 Regresión múltiple (introducción)
💡 Intuición
La regresión simple tiene una sola variable predictora. La regresión múltiple tiene varias:
Ejemplo: predecir ventas de pupusas usando temperatura, día de la semana, si hay evento especial nearby, etc.
La lógica es la misma — mínimos cuadrados encuentra los coeficientes. Pero la interpretación cambia: cada es el efecto de manteniendo las demás variables constantes.
En la práctica, la regresión múltiple se hace con software (Python, R, Excel). Este libro no profundiza en regresión múltiple — eso corresponde a cursos posteriores de análisis de datos o econometría.
5.6 Cierre de Estadística Inferencial
Con este capítulo cerrás el libro. El recorrido fue:
- Probabilidad — el lenguaje matemático de la incertidumbre.
- Distribuciones — binomial, normal, t-Student y el TLC.
- Intervalos de confianza — estimar parámetros con precisión cuantificada.
- Pruebas de hipótesis — tomar decisiones formales basadas en datos.
- Regresión — modelar relaciones entre variables y predecir.
Estas herramientas son la base de:
- Machine learning (regresión lineal y logística son el punto de partida)
- Six Sigma y control estadístico de procesos (ingeniería industrial)
- Investigación de mercados (administración de empresas)
- Toma de decisiones basada en datos (todos)
5.7 Ejercicios
✏️ Ejercicio 5.1 — Correlación
Un gerente de ventas registró el número de llamadas de su equipo y las ventas logradas en 5 semanas:
| Semana | Llamadas | Ventas |
|---|---|---|
| 1 | 50 | 8 |
| 2 | 65 | 11 |
| 3 | 45 | 7 |
| 4 | 70 | 13 |
| 5 | 55 | 9 |
Calculá e interpretá el resultado.
Solución
,
| 50 | 8 | -7 | -1.6 | 11.2 | 49 | 2.56 |
| 65 | 11 | 8 | 1.4 | 11.2 | 64 | 1.96 |
| 45 | 7 | -12 | -2.6 | 31.2 | 144 | 6.76 |
| 70 | 13 | 13 | 3.4 | 44.2 | 169 | 11.56 |
| 55 | 9 | -2 | -0.6 | 1.2 | 4 | 0.36 |
| Σ | 99.0 | 430 | 23.2 |
Correlación muy fuerte positiva. Hay una relación casi lineal perfecta entre el número de llamadas y las ventas logradas.
✏️ Ejercicio 5.2 — Regresión
Con los datos del ejercicio anterior:
a. Calculá la ecuación de regresión . b. Interpretá los coeficientes. c. Predecí las ventas para una semana con 60 llamadas. d. Calculá e interpretá.
Solución
a.
b. Por cada llamada adicional, las ventas aumentan en promedio 0.23 unidades. (El intercepto -3.52 no tiene significado directo — nadie hace -3.52 ventas con 0 llamadas.)
c. ventas.
d. . El modelo explica el 98.2% de la variabilidad en las ventas.
✏️ Ejercicio 5.3 — Interpretación crítica
Un análisis muestra que el número de iglesias en una ciudad correlaciona con el número de crímenes (r = 0.87). Un político concluye: "Las iglesias causan crímenes. Deberíamos cerrarlas."
a. ¿Qué error estadístico comete el político? b. ¿Qué variable podría explicar ambas correlaciones sin que haya causalidad directa? c. ¿Qué tipo de diseño de estudio necesitarías para establecer causalidad?
Solución
a. Confunde correlación con causalidad. Una correlación alta entre X e Y no implica que X cause Y.
b. Variable de confusión: tamaño de la ciudad / población. Las ciudades más grandes tienen más iglesias (más personas religiosas) Y también más crímenes (más personas en general). Ambas variables aumentan con la población, pero no tienen relación causal directa entre sí.
c. Para establecer causalidad se necesita un experimento controlado aleatorizado (RCT): asignar aleatoriamente ciudades a condiciones con más o menos iglesias (imposible en la práctica) y medir el efecto en crímenes, controlando todos los demás factores. En ciencias sociales, la causalidad se aproxima con estudios cuasi-experimentales (diferencias en diferencias, variables instrumentales, etc.).
5.8 Para profundizar
- Montgomery & Runger, Applied Statistics and Probability for Engineers, cap. 11-12.
- James et al., An Introduction to Statistical Learning (gratis en línea) — cap. 3 sobre regresión lineal.
- Walpole et al., cap. 11-12.
- Hacia el futuro: Inteligencia Artificial y Machine Learning extienden la regresión a modelos no lineales, regularización y redes neuronales.
Definiciones nuevas: correlación de Pearson, coeficiente de determinación R², regresión lineal simple, mínimos cuadrados, intercepto, pendiente, residuo, SST, SSR, SSE, homocedasticidad, intervalo de predicción, extrapolación, variable de confusión.