Pruebas de hipótesis

"En estadística, nunca probamos que algo es verdad. Solo decidimos si la evidencia es suficiente para rechazar que es falso."

Qué vas a aprender en este capítulo

Las pruebas de hipótesis son el marco formal para tomar decisiones basadas en datos. ¿Esta nueva política redujo el tiempo de espera? ¿El producto A es mejor que el B? ¿Esta máquina produce dentro de las especificaciones? Sin pruebas estadísticas, esas preguntas solo se pueden responder con intuición. Con ellas, podés cuantificar qué tan seguros estás de tu conclusión.

Este capítulo es también el que más malentendidos genera — por eso dedicamos espacio especial a los errores comunes.


4.1 El marco de las pruebas de hipótesis

💡 Intuición

Una prueba de hipótesis funciona como el sistema jurídico:

  • La hipótesis nula (H0H_0) es "inocente hasta que se pruebe lo contrario" — el estado por defecto, lo que asumimos si no hay evidencia suficiente.
  • La hipótesis alternativa (H1H_1) es lo que el investigador quiere probar.
  • Los datos son la evidencia.
  • El nivel de significancia α\alpha es el umbral de "evidencia suficiente" — qué tan inusual deben ser los datos para rechazar H0H_0.

Si los datos son muy poco probables bajo H0H_0, rechazamos H0H_0 y aceptamos H1H_1.

Importante: Si no rechazamos H0H_0, no "probamos" que H0H_0 es verdadera — solo dijimos que no hay suficiente evidencia en su contra. El acusado queda libre, pero no necesariamente inocente.

📐 Fundamento

Hipótesis:

  • H0H_0: hipótesis nula — siempre incluye igualdad. Ej: μ=μ0\mu = \mu_0, p=p0p = p_0.
  • H1H_1: hipótesis alternativa — lo que queremos demostrar. Puede ser:
    • Bilateral (dos colas): H1:μμ0H_1: \mu \neq \mu_0
    • Unilateral derecha: H1:μ>μ0H_1: \mu > \mu_0
    • Unilateral izquierda: H1:μ<μ0H_1: \mu < \mu_0

El p-value:

El p-value es la probabilidad de obtener un estadístico de prueba tan extremo (o más) como el observado, asumiendo que H0H_0 es verdadera.

  • p<αp < \alpha: Rechazar H0H_0 (evidencia estadísticamente significativa).
  • pαp \geq \alpha: No rechazar H0H_0 (evidencia insuficiente).

Errores posibles:

H0H_0 es verdadera H0H_0 es falsa
Rechazar H0H_0 Error Tipo I (α) Decisión correcta (Poder)
No rechazar H0H_0 Decisión correcta Error Tipo II (β)
  • Error Tipo I: Rechazar H0H_0 cuando es verdadera. "Condenar a un inocente."
  • Error Tipo II: No rechazar H0H_0 cuando es falsa. "Absolver a un culpable."
  • Poder de la prueba: 1β1 - \beta — probabilidad de detectar un efecto real.

Reducir α\alpha (ser más exigente con la evidencia) aumenta β\beta y viceversa.


4.2 Prueba de hipótesis para la media

📐 Fundamento

Procedimiento general (5 pasos):

  1. Plantear hipótesis: H0:μ=μ0H_0: \mu = \mu_0 vs H1H_1 (bilateral, superior o inferior).
  2. Elegir nivel de significancia: α=0.05\alpha = 0.05 (típico), o 0.01, 0.10.
  3. Calcular estadístico de prueba:
    • Si σ\sigma conocida: z=xˉμ0σ/nz = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}
    • Si σ\sigma desconocida: t=xˉμ0s/nt = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} con ν=n1\nu = n-1
  4. Calcular p-value (o comparar con valor crítico).
  5. Conclusión: Si p<αp < \alpha, rechazar H0H_0 con nivel α\alpha.

Valores críticos para prueba bilateral (t):

α\alpha ν\nu tα/2,νt_{\alpha/2, \nu}
0.05 10 2.228
0.05 20 2.086
0.05 30 2.042
0.05 \infty 1.960
0.01 20 2.845

🛠️ En la práctica

Ejemplo — rendimiento de una máquina:

Una máquina debería producir barras de 50 cm. El ingeniero de calidad toma una muestra de 20 barras y obtiene xˉ=50.8\bar{x} = 50.8 cm con s=1.5s = 1.5 cm. ¿Está la máquina fuera de especificación?

Paso 1: H0:μ=50H_0: \mu = 50 vs H1:μ50H_1: \mu \neq 50 (bilateral — puede ser mayor o menor)

Paso 2: α=0.05\alpha = 0.05

Paso 3: t=50.8501.5/20=0.80.335=2.387t = \frac{50.8 - 50}{1.5/\sqrt{20}} = \frac{0.8}{0.335} = 2.387

Paso 4: Con ν=19\nu = 19 y prueba bilateral: p=2×P(T19>2.387)2×0.014=0.028p = 2 \times P(T_{19} > 2.387) \approx 2 \times 0.014 = 0.028.

Paso 5: p=0.028<0.05p = 0.028 < 0.05Rechazar H0H_0.

Conclusión: Hay evidencia estadística suficiente para afirmar que la máquina no está produciendo barras de 50 cm. Se recomienda calibrar.

Nota importante: Esto no dice que la diferencia de 0.8 cm sea prácticamente importante — solo que es estadísticamente detectable con esta muestra. Con n=10,000n = 10{,}000 detectarías diferencias de 0.01 cm. El tamaño del efecto también importa.


4.3 Prueba de hipótesis para proporciones

📐 Fundamento

Para probar H0:p=p0H_0: p = p_0 con una muestra de tamaño nn y p^\hat{p} observada:

z=p^p0p0(1p0)/nz = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}

La distribución es zN(0,1)z \sim N(0,1) cuando np05np_0 \geq 5 y n(1p0)5n(1-p_0) \geq 5.

🛠️ En la práctica

Ejemplo — tasa de respuesta a campaña:

Históricamente, el 20% de los clientes responde a una campaña de email. Se prueba una nueva campaña y de 500 clientes contactados, 115 responden (p^=0.23\hat{p} = 0.23).

¿La nueva campaña tiene mayor tasa de respuesta?

H0:p=0.20H_0: p = 0.20 vs H1:p>0.20H_1: p > 0.20 (unilateral superior)

z=0.230.200.20×0.80/500=0.030.01789=1.677z = \frac{0.23 - 0.20}{\sqrt{0.20 \times 0.80 / 500}} = \frac{0.03}{0.01789} = 1.677

p-value=P(Z>1.677)0.047p\text{-value} = P(Z > 1.677) \approx 0.047

Con α=0.05\alpha = 0.05: p=0.047<0.05p = 0.047 < 0.05Rechazar H0H_0 (con justa margen).

La nueva campaña tiene evidencia estadística de mayor tasa de respuesta. La empresa podría adoptarla, aunque con cautela dado lo ajustado del resultado.


4.4 Comparación de dos grupos

💡 Intuición

Muchas veces el interés es comparar dos grupos: ¿El producto A dura más que el B? ¿Los empleados capacitados producen más que los no capacitados? ¿El salario promedio difiere entre hombres y mujeres?

Las pruebas de dos muestras siguen la misma lógica, pero el estadístico ahora compara las medias (o proporciones) de los dos grupos.

📐 Fundamento

Prueba t para dos muestras independientes:

H0:μ1=μ2H_0: \mu_1 = \mu_2 (o equivalentemente μ1μ2=0\mu_1 - \mu_2 = 0)

Estadístico (varianzas iguales asumidas — prueba de Welch si no):

t=xˉ1xˉ2sp1/n1+1/n2t = \frac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1 + 1/n_2}}

donde sp=(n11)s12+(n21)s22n1+n22s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}} es la varianza mancomunada.

Grados de libertad: ν=n1+n22\nu = n_1 + n_2 - 2.

Prueba t pareada (cuando los datos vienen en pares — mismo sujeto antes/después):

di=x1ix2id_i = x_{1i} - x_{2i} (diferencias pareadas)

t=dˉsd/nt = \frac{\bar{d}}{s_d/\sqrt{n}} con ν=n1\nu = n - 1

🛠️ En la práctica

Ejemplo — capacitación en ventas:

Una empresa capacita a 12 vendedores (grupo A) y mantiene sin capacitar a 10 (grupo B). Las ventas mensuales después:

  • Grupo A: xˉA=45,200\bar{x}_A = 45{,}200, sA=3,800s_A = 3{,}800
  • Grupo B: xˉB=41,500\bar{x}_B = 41{,}500, sB=4,200s_B = 4{,}200

¿La capacitación aumentó las ventas?

H0:μA=μBH_0: \mu_A = \mu_B vs H1:μA>μBH_1: \mu_A > \mu_B

sp=11(3800)2+9(4200)220=158,620,000+158,760,00020=15,869,0003,984s_p = \sqrt{\frac{11(3800)^2 + 9(4200)^2}{20}} = \sqrt{\frac{158{,}620{,}000 + 158{,}760{,}000}{20}} = \sqrt{15{,}869{,}000} \approx 3{,}984

t=452004150039841/12+1/10=37003984×0.4303=370017142.159t = \frac{45200 - 41500}{3984\sqrt{1/12 + 1/10}} = \frac{3700}{3984 \times 0.4303} = \frac{3700}{1714} \approx 2.159

ν=20\nu = 20, t0.05,20=1.725t_{0.05, 20} = 1.725 (unilateral). Como 2.159>1.7252.159 > 1.725, rechazamos H0H_0.

La capacitación tiene un efecto estadísticamente significativo en las ventas.


4.5 El p-value y sus malentendidos

📐 Fundamento

El p-value es la herramienta estadística más usada y más malinterpretada. La American Statistical Association (ASA) publicó en 2016 un statement aclarando qué NO es el p-value:

El p-value NO dice:

❌ La probabilidad de que H0H_0 sea verdadera. ❌ La probabilidad de que los resultados sean "por azar". ❌ La magnitud del efecto (un pp pequeño no implica efecto grande). ❌ La importancia práctica del resultado.

El p-value SÍ dice:

✅ Qué tan incompatibles son los datos con H0H_0. Si pp es pequeño, los datos son inusuales bajo H0H_0.

Significancia estadística ≠ significancia práctica:

Con n=100,000n = 100{,}000, una diferencia de 0.001 mm puede ser "estadísticamente significativa". Pero nadie debería cancelar el negocio por eso. Siempre reportá también el tamaño del efecto (Cohen's d, odds ratio, etc.).

El problema del p-hacking:

Si hacés 20 pruebas y usás α=0.05\alpha = 0.05, esperás 1 resultado "significativo" por azar. Algunos investigadores hacen muchas pruebas y solo reportan las que dan p<0.05p < 0.05. Eso es una mala práctica científica.

Alternativas al p-value:

  • Reportar siempre intervalos de confianza junto con el p-value.
  • Usar el tamaño del efecto para juzgar importancia práctica.
  • Bayesian statistics como marco alternativo.

4.6 Ejercicios

✏️ Ejercicio 4.1 — Prueba para media

Se afirma que el tiempo promedio de entrega de una pizzería es 30 minutos. Una muestra de 25 pedidos muestra xˉ=33.5\bar{x} = 33.5 minutos con s=6s = 6 minutos.

Realizá la prueba de hipótesis al 5% de significancia para ver si el tiempo real supera 30 minutos.

✏️ Ejercicio 4.2 — Prueba para proporción

Una empresa tecnológica afirma que su software reduce los errores de captura de datos al menos al 5%. En una prueba piloto con 200 operadores, se encontraron errores en 18 casos (p^=0.09\hat{p} = 0.09).

¿Los datos contradicen la afirmación de la empresa?

✏️ Ejercicio 4.3 — Dos grupos

Se comparan dos métodos de enseñanza. Método A: 15 estudiantes, promedio 78, desviación 8. Método B: 12 estudiantes, promedio 83, desviación 7.

¿Hay diferencia significativa entre los métodos? Use α=0.05\alpha = 0.05 bilateral.


4.7 Para profundizar


Definiciones nuevas: hipótesis nula, hipótesis alternativa, nivel de significancia, estadístico de prueba, p-value, región de rechazo, error tipo I, error tipo II, poder de la prueba, prueba bilateral, prueba unilateral, prueba t para dos muestras, prueba t pareada, p-hacking, tamaño del efecto.