Pruebas de hipótesis
"En estadística, nunca probamos que algo es verdad. Solo decidimos si la evidencia es suficiente para rechazar que es falso."
Qué vas a aprender en este capítulo
Las pruebas de hipótesis son el marco formal para tomar decisiones basadas en datos. ¿Esta nueva política redujo el tiempo de espera? ¿El producto A es mejor que el B? ¿Esta máquina produce dentro de las especificaciones? Sin pruebas estadísticas, esas preguntas solo se pueden responder con intuición. Con ellas, podés cuantificar qué tan seguros estás de tu conclusión.
Este capítulo es también el que más malentendidos genera — por eso dedicamos espacio especial a los errores comunes.
4.1 El marco de las pruebas de hipótesis
💡 Intuición
Una prueba de hipótesis funciona como el sistema jurídico:
- La hipótesis nula () es "inocente hasta que se pruebe lo contrario" — el estado por defecto, lo que asumimos si no hay evidencia suficiente.
- La hipótesis alternativa () es lo que el investigador quiere probar.
- Los datos son la evidencia.
- El nivel de significancia es el umbral de "evidencia suficiente" — qué tan inusual deben ser los datos para rechazar .
Si los datos son muy poco probables bajo , rechazamos y aceptamos .
Importante: Si no rechazamos , no "probamos" que es verdadera — solo dijimos que no hay suficiente evidencia en su contra. El acusado queda libre, pero no necesariamente inocente.
📐 Fundamento
Hipótesis:
- : hipótesis nula — siempre incluye igualdad. Ej: , .
- : hipótesis alternativa — lo que queremos demostrar. Puede ser:
- Bilateral (dos colas):
- Unilateral derecha:
- Unilateral izquierda:
El p-value:
El p-value es la probabilidad de obtener un estadístico de prueba tan extremo (o más) como el observado, asumiendo que es verdadera.
- : Rechazar (evidencia estadísticamente significativa).
- : No rechazar (evidencia insuficiente).
Errores posibles:
| es verdadera | es falsa | |
|---|---|---|
| Rechazar | Error Tipo I (α) | Decisión correcta (Poder) |
| No rechazar | Decisión correcta | Error Tipo II (β) |
- Error Tipo I: Rechazar cuando es verdadera. "Condenar a un inocente."
- Error Tipo II: No rechazar cuando es falsa. "Absolver a un culpable."
- Poder de la prueba: — probabilidad de detectar un efecto real.
Reducir (ser más exigente con la evidencia) aumenta y viceversa.
4.2 Prueba de hipótesis para la media
📐 Fundamento
Procedimiento general (5 pasos):
- Plantear hipótesis: vs (bilateral, superior o inferior).
- Elegir nivel de significancia: (típico), o 0.01, 0.10.
- Calcular estadístico de prueba:
- Si conocida:
- Si desconocida: con
- Calcular p-value (o comparar con valor crítico).
- Conclusión: Si , rechazar con nivel .
Valores críticos para prueba bilateral (t):
| 0.05 | 10 | 2.228 |
| 0.05 | 20 | 2.086 |
| 0.05 | 30 | 2.042 |
| 0.05 | 1.960 | |
| 0.01 | 20 | 2.845 |
🛠️ En la práctica
Ejemplo — rendimiento de una máquina:
Una máquina debería producir barras de 50 cm. El ingeniero de calidad toma una muestra de 20 barras y obtiene cm con cm. ¿Está la máquina fuera de especificación?
Paso 1: vs (bilateral — puede ser mayor o menor)
Paso 2:
Paso 3:
Paso 4: Con y prueba bilateral: .
Paso 5: → Rechazar .
Conclusión: Hay evidencia estadística suficiente para afirmar que la máquina no está produciendo barras de 50 cm. Se recomienda calibrar.
Nota importante: Esto no dice que la diferencia de 0.8 cm sea prácticamente importante — solo que es estadísticamente detectable con esta muestra. Con detectarías diferencias de 0.01 cm. El tamaño del efecto también importa.
4.3 Prueba de hipótesis para proporciones
📐 Fundamento
Para probar con una muestra de tamaño y observada:
La distribución es cuando y .
🛠️ En la práctica
Ejemplo — tasa de respuesta a campaña:
Históricamente, el 20% de los clientes responde a una campaña de email. Se prueba una nueva campaña y de 500 clientes contactados, 115 responden ().
¿La nueva campaña tiene mayor tasa de respuesta?
vs (unilateral superior)
Con : → Rechazar (con justa margen).
La nueva campaña tiene evidencia estadística de mayor tasa de respuesta. La empresa podría adoptarla, aunque con cautela dado lo ajustado del resultado.
4.4 Comparación de dos grupos
💡 Intuición
Muchas veces el interés es comparar dos grupos: ¿El producto A dura más que el B? ¿Los empleados capacitados producen más que los no capacitados? ¿El salario promedio difiere entre hombres y mujeres?
Las pruebas de dos muestras siguen la misma lógica, pero el estadístico ahora compara las medias (o proporciones) de los dos grupos.
📐 Fundamento
Prueba t para dos muestras independientes:
(o equivalentemente )
Estadístico (varianzas iguales asumidas — prueba de Welch si no):
donde es la varianza mancomunada.
Grados de libertad: .
Prueba t pareada (cuando los datos vienen en pares — mismo sujeto antes/después):
(diferencias pareadas)
con
🛠️ En la práctica
Ejemplo — capacitación en ventas:
Una empresa capacita a 12 vendedores (grupo A) y mantiene sin capacitar a 10 (grupo B). Las ventas mensuales después:
- Grupo A: ,
- Grupo B: ,
¿La capacitación aumentó las ventas?
vs
, (unilateral). Como , rechazamos .
La capacitación tiene un efecto estadísticamente significativo en las ventas.
4.5 El p-value y sus malentendidos
📐 Fundamento
El p-value es la herramienta estadística más usada y más malinterpretada. La American Statistical Association (ASA) publicó en 2016 un statement aclarando qué NO es el p-value:
El p-value NO dice:
❌ La probabilidad de que sea verdadera. ❌ La probabilidad de que los resultados sean "por azar". ❌ La magnitud del efecto (un pequeño no implica efecto grande). ❌ La importancia práctica del resultado.
El p-value SÍ dice:
✅ Qué tan incompatibles son los datos con . Si es pequeño, los datos son inusuales bajo .
Significancia estadística ≠ significancia práctica:
Con , una diferencia de 0.001 mm puede ser "estadísticamente significativa". Pero nadie debería cancelar el negocio por eso. Siempre reportá también el tamaño del efecto (Cohen's d, odds ratio, etc.).
El problema del p-hacking:
Si hacés 20 pruebas y usás , esperás 1 resultado "significativo" por azar. Algunos investigadores hacen muchas pruebas y solo reportan las que dan . Eso es una mala práctica científica.
Alternativas al p-value:
- Reportar siempre intervalos de confianza junto con el p-value.
- Usar el tamaño del efecto para juzgar importancia práctica.
- Bayesian statistics como marco alternativo.
4.6 Ejercicios
✏️ Ejercicio 4.1 — Prueba para media
Se afirma que el tiempo promedio de entrega de una pizzería es 30 minutos. Una muestra de 25 pedidos muestra minutos con minutos.
Realizá la prueba de hipótesis al 5% de significancia para ver si el tiempo real supera 30 minutos.
Solución
vs (unilateral superior)
, (unilateral).
Como → Rechazamos .
p-value: .
Conclusión: Hay evidencia estadística suficiente () para afirmar que el tiempo promedio de entrega supera los 30 minutos. La pizzería debería revisar su proceso.
✏️ Ejercicio 4.2 — Prueba para proporción
Una empresa tecnológica afirma que su software reduce los errores de captura de datos al menos al 5%. En una prueba piloto con 200 operadores, se encontraron errores en 18 casos ().
¿Los datos contradicen la afirmación de la empresa?
Solución
La empresa afirma . Para refutarla, la hipótesis alternativa es .
vs
p-value:
Con : → Rechazamos .
Los datos contradicen la afirmación de la empresa. La tasa de error observada (9%) es significativamente mayor al 5% prometido.
✏️ Ejercicio 4.3 — Dos grupos
Se comparan dos métodos de enseñanza. Método A: 15 estudiantes, promedio 78, desviación 8. Método B: 12 estudiantes, promedio 83, desviación 7.
¿Hay diferencia significativa entre los métodos? Use bilateral.
Solución
vs
. (bilateral). Como → No rechazamos .
p-value .
Conclusión: No hay evidencia estadística suficiente para afirmar que los métodos de enseñanza difieren. Aunque la media del método B es 5 puntos mayor, la diferencia podría ser atribuible a la variabilidad muestral.
4.7 Para profundizar
- Wasserstein & Lazar (2016), "The ASA's Statement on p-Values" — leer obligatorio para entender los límites del p-value.
- Cohen, Statistical Power Analysis for the Behavioral Sciences — el referente en tamaños de efecto.
- Siguiente: Regresión lineal — modelar la relación entre variables y predecir.
Definiciones nuevas: hipótesis nula, hipótesis alternativa, nivel de significancia, estadístico de prueba, p-value, región de rechazo, error tipo I, error tipo II, poder de la prueba, prueba bilateral, prueba unilateral, prueba t para dos muestras, prueba t pareada, p-hacking, tamaño del efecto.