Pruebas de hipótesis

"En estadística, nunca probamos que algo es verdad. Solo decidimos si la evidencia es suficiente para rechazar que es falso."

Qué vas a aprender en este capítulo

Las pruebas de hipótesis son el marco formal para tomar decisiones basadas en datos. ¿Esta nueva política redujo el tiempo de espera? ¿El producto A es mejor que el B? ¿Esta máquina produce dentro de las especificaciones? Sin pruebas estadísticas, esas preguntas solo se pueden responder con intuición. Con ellas, podés cuantificar qué tan seguros estás de tu conclusión.

Este capítulo es también el que más malentendidos genera — por eso dedicamos espacio especial a los errores comunes.

4.1 El marco de las pruebas de hipótesis

💡 Intuición

Una prueba de hipótesis funciona como el sistema jurídico:

La hipótesis nula ( $H_0$ ) es "inocente hasta que se pruebe lo contrario" — el estado por defecto, lo que asumimos si no hay evidencia suficiente.
La hipótesis alternativa ( $H_1$ ) es lo que el investigador quiere probar.
Los datos son la evidencia.
El nivel de significancia $\alpha$ es el umbral de "evidencia suficiente" — qué tan inusual deben ser los datos para rechazar $H_0$ .

Si los datos son muy poco probables bajo $H_0$ , rechazamos $H_0$ y aceptamos $H_1$ .

Importante: Si no rechazamos $H_0$ , no "probamos" que $H_0$ es verdadera — solo dijimos que no hay suficiente evidencia en su contra. El acusado queda libre, pero no necesariamente inocente.

📐 Fundamento

Hipótesis:

$H_0$ : hipótesis nula — siempre incluye igualdad. Ej: $\mu = \mu_0$ , $p = p_0$ .
$H_1$ $H_{1}$ : hipótesis alternativa — lo que queremos demostrar. Puede ser:
- Bilateral (dos colas): $H_1: \mu \neq \mu_0$
- Unilateral derecha: $H_1: \mu > \mu_0$
- Unilateral izquierda: $H_1: \mu < \mu_0$

El p-value:

El p-value es la probabilidad de obtener un estadístico de prueba tan extremo (o más) como el observado, asumiendo que $H_0$ es verdadera.

$p < \alpha$ : Rechazar $H_0$ (evidencia estadísticamente significativa).
$p \geq \alpha$ : No rechazar $H_0$ (evidencia insuficiente).

Errores posibles:

	$H_0$ es verdadera	$H_0$ es falsa
Rechazar $H_0$	Error Tipo I (α)	Decisión correcta (Poder)
No rechazar $H_0$	Decisión correcta	Error Tipo II (β)

Error Tipo I: Rechazar $H_0$ cuando es verdadera. "Condenar a un inocente."
Error Tipo II: No rechazar $H_0$ cuando es falsa. "Absolver a un culpable."
Poder de la prueba: $1 - \beta$ — probabilidad de detectar un efecto real.

Reducir $\alpha$ (ser más exigente con la evidencia) aumenta $\beta$ y viceversa.

4.2 Prueba de hipótesis para la media

📐 Fundamento

Procedimiento general (5 pasos):

Plantear hipótesis: $H_0: \mu = \mu_0$ vs $H_1$ (bilateral, superior o inferior).
Elegir nivel de significancia: $\alpha = 0.05$ (típico), o 0.01, 0.10.
Calcular estadístico de prueba:
- Si $\sigma$ conocida: $z = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}$
- Si $\sigma$ desconocida: $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ con $\nu = n-1$
Calcular p-value (o comparar con valor crítico).
Conclusión: Si $p < \alpha$ , rechazar $H_0$ con nivel $\alpha$ .

Valores críticos para prueba bilateral (t):

$\alpha$	$\nu$	$t_{\alpha/2, \nu}$
0.05	10	2.228
0.05	20	2.086
0.05	30	2.042
0.05	$\infty$	1.960
0.01	20	2.845

🛠️ En la práctica

Ejemplo — rendimiento de una máquina:

Una máquina debería producir barras de 50 cm. El ingeniero de calidad toma una muestra de 20 barras y obtiene $\bar{x} = 50.8$ cm con $s = 1.5$ cm. ¿Está la máquina fuera de especificación?

Paso 1: $H_0: \mu = 50$ vs $H_1: \mu \neq 50$ (bilateral — puede ser mayor o menor)

Paso 2: $\alpha = 0.05$

Paso 3: $t = \frac{50.8 - 50}{1.5/\sqrt{20}} = \frac{0.8}{0.335} = 2.387$

Paso 4: Con $\nu = 19$ y prueba bilateral: $p = 2 \times P(T_{19} > 2.387) \approx 2 \times 0.014 = 0.028$ .

Paso 5: $p = 0.028 < 0.05$ → Rechazar $H_0$ .

Conclusión: Hay evidencia estadística suficiente para afirmar que la máquina no está produciendo barras de 50 cm. Se recomienda calibrar.

Nota importante: Esto no dice que la diferencia de 0.8 cm sea prácticamente importante — solo que es estadísticamente detectable con esta muestra. Con $n = 10{,}000$ detectarías diferencias de 0.01 cm. El tamaño del efecto también importa.

4.3 Prueba de hipótesis para proporciones

📐 Fundamento

Para probar $H_0: p = p_0$ con una muestra de tamaño $n$ y $\hat{p}$ observada:

z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}

La distribución es $z \sim N(0,1)$ cuando $np_0 \geq 5$ y $n(1-p_0) \geq 5$ .

🛠️ En la práctica

Ejemplo — tasa de respuesta a campaña:

Históricamente, el 20% de los clientes responde a una campaña de email. Se prueba una nueva campaña y de 500 clientes contactados, 115 responden ( $\hat{p} = 0.23$ ).

¿La nueva campaña tiene mayor tasa de respuesta?

$H_0: p = 0.20$ vs $H_1: p > 0.20$ (unilateral superior)

$z = \frac{0.23 - 0.20}{\sqrt{0.20 \times 0.80 / 500}} = \frac{0.03}{0.01789} = 1.677$

$p\text{-value} = P(Z > 1.677) \approx 0.047$

Con $\alpha = 0.05$ : $p = 0.047 < 0.05$ → Rechazar $H_0$ (con justa margen).

La nueva campaña tiene evidencia estadística de mayor tasa de respuesta. La empresa podría adoptarla, aunque con cautela dado lo ajustado del resultado.

4.4 Comparación de dos grupos

💡 Intuición

Muchas veces el interés es comparar dos grupos: ¿El producto A dura más que el B? ¿Los empleados capacitados producen más que los no capacitados? ¿El salario promedio difiere entre hombres y mujeres?

Las pruebas de dos muestras siguen la misma lógica, pero el estadístico ahora compara las medias (o proporciones) de los dos grupos.

📐 Fundamento

Prueba t para dos muestras independientes:

$H_0: \mu_1 = \mu_2$ (o equivalentemente $\mu_1 - \mu_2 = 0$ )

Estadístico (varianzas iguales asumidas — prueba de Welch si no):

t = \frac{\bar{x}_1 - \bar{x}_2}{s_p\sqrt{1/n_1 + 1/n_2}}

donde $s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$ es la varianza mancomunada.

Grados de libertad: $\nu = n_1 + n_2 - 2$ .

Prueba t pareada (cuando los datos vienen en pares — mismo sujeto antes/después):

$d_i = x_{1i} - x_{2i}$ (diferencias pareadas)

$t = \frac{\bar{d}}{s_d/\sqrt{n}}$ con $\nu = n - 1$

🛠️ En la práctica

Ejemplo — capacitación en ventas:

Una empresa capacita a 12 vendedores (grupo A) y mantiene sin capacitar a 10 (grupo B). Las ventas mensuales después:

Grupo A: $\bar{x}_A = 45{,}200$ , $s_A = 3{,}800$
Grupo B: $\bar{x}_B = 41{,}500$ , $s_B = 4{,}200$

¿La capacitación aumentó las ventas?

$H_0: \mu_A = \mu_B$ vs $H_1: \mu_A > \mu_B$

$s_p = \sqrt{\frac{11(3800)^2 + 9(4200)^2}{20}} = \sqrt{\frac{158{,}620{,}000 + 158{,}760{,}000}{20}} = \sqrt{15{,}869{,}000} \approx 3{,}984$

$t = \frac{45200 - 41500}{3984\sqrt{1/12 + 1/10}} = \frac{3700}{3984 \times 0.4303} = \frac{3700}{1714} \approx 2.159$

$\nu = 20$ , $t_{0.05, 20} = 1.725$ (unilateral). Como $2.159 > 1.725$ , rechazamos $H_0$ .

La capacitación tiene un efecto estadísticamente significativo en las ventas.

4.5 El p-value y sus malentendidos

📐 Fundamento

El p-value es la herramienta estadística más usada y más malinterpretada. La American Statistical Association (ASA) publicó en 2016 un statement aclarando qué NO es el p-value:

El p-value NO dice:

❌ La probabilidad de que $H_0$ sea verdadera. ❌ La probabilidad de que los resultados sean "por azar". ❌ La magnitud del efecto (un $p$ pequeño no implica efecto grande). ❌ La importancia práctica del resultado.

El p-value SÍ dice:

✅ Qué tan incompatibles son los datos con $H_0$ . Si $p$ es pequeño, los datos son inusuales bajo $H_0$ .

Significancia estadística ≠ significancia práctica:

Con $n = 100{,}000$ , una diferencia de 0.001 mm puede ser "estadísticamente significativa". Pero nadie debería cancelar el negocio por eso. Siempre reportá también el tamaño del efecto (Cohen's d, odds ratio, etc.).

El problema del p-hacking:

Si hacés 20 pruebas y usás $\alpha = 0.05$ , esperás 1 resultado "significativo" por azar. Algunos investigadores hacen muchas pruebas y solo reportan las que dan $p < 0.05$ . Eso es una mala práctica científica.

Alternativas al p-value:

Reportar siempre intervalos de confianza junto con el p-value.
Usar el tamaño del efecto para juzgar importancia práctica.
Bayesian statistics como marco alternativo.

4.6 Ejercicios

✏️ Ejercicio 4.1 — Prueba para media

Se afirma que el tiempo promedio de entrega de una pizzería es 30 minutos. Una muestra de 25 pedidos muestra $\bar{x} = 33.5$ minutos con $s = 6$ minutos.

Realizá la prueba de hipótesis al 5% de significancia para ver si el tiempo real supera 30 minutos.

✏️ Ejercicio 4.2 — Prueba para proporción

Una empresa tecnológica afirma que su software reduce los errores de captura de datos al menos al 5%. En una prueba piloto con 200 operadores, se encontraron errores en 18 casos ( $\hat{p} = 0.09$ ).

¿Los datos contradicen la afirmación de la empresa?

✏️ Ejercicio 4.3 — Dos grupos

Se comparan dos métodos de enseñanza. Método A: 15 estudiantes, promedio 78, desviación 8. Método B: 12 estudiantes, promedio 83, desviación 7.

¿Hay diferencia significativa entre los métodos? Use $\alpha = 0.05$ bilateral.

4.7 Para profundizar

Wasserstein & Lazar (2016), "The ASA's Statement on p-Values" — leer obligatorio para entender los límites del p-value.
Cohen, Statistical Power Analysis for the Behavioral Sciences — el referente en tamaños de efecto.
Siguiente: Regresión lineal — modelar la relación entre variables y predecir.

Definiciones nuevas: hipótesis nula, hipótesis alternativa, nivel de significancia, estadístico de prueba, p-value, región de rechazo, error tipo I, error tipo II, poder de la prueba, prueba bilateral, prueba unilateral, prueba t para dos muestras, prueba t pareada, p-hacking, tamaño del efecto.

← Anterior Intervalos de confianza Siguiente → Regresión lineal

Reportar error en este capítulo · Patrocinar este libro