Distribuciones de probabilidad

"La normalidad es solo una distribución más. La que sucede estar en el centro de todo lo que encontramos en la naturaleza."

Qué vas a aprender en este capítulo

Una variable aleatoria es una variable cuyo valor depende del resultado de un experimento aleatorio. Las distribuciones de probabilidad describen cómo se distribuyen los posibles valores y sus probabilidades. Este capítulo cubre las tres distribuciones más usadas en estadística: binomial (conteos), normal (fenómenos continuos) y t-Student (inferencia con muestras pequeñas).


2.1 Variables aleatorias

💡 Intuición

Tirás 3 monedas. El número de caras es un valor aleatorio — puede ser 0, 1, 2 o 3, cada uno con diferente probabilidad. Ese número es una variable aleatoria.

Discreta: toma valores contables (0, 1, 2, 3...). Ejemplo: número de defectos, número de ventas en un día.

Continua: puede tomar cualquier valor en un rango. Ejemplo: la altura de una persona (1.65, 1.651, 1.6512...), el tiempo de espera, el peso de un producto.

La diferencia importa porque el cálculo de probabilidades es distinto: en discretas se suman probabilidades; en continuas se integran (pero en este libro usamos tablas y software en lugar de cálculo).

📐 Fundamento

Variable aleatoria discreta XX:

Función de probabilidad (FP): p(x)=P(X=x)p(x) = P(X = x), satisface:

  • p(x)0p(x) \geq 0 para todo xx
  • xp(x)=1\sum_x p(x) = 1

Valor esperado (media):

μ=E[X]=xxp(x)\mu = E[X] = \sum_x x \cdot p(x)

Varianza:

σ2=Var(X)=E[(Xμ)2]=x(xμ)2p(x)\sigma^2 = Var(X) = E[(X - \mu)^2] = \sum_x (x - \mu)^2 p(x)

Equivalente (más fácil de calcular): σ2=E[X2](E[X])2\sigma^2 = E[X^2] - (E[X])^2

Variable aleatoria continua XX:

Función de densidad de probabilidad (FDP): f(x)f(x), satisface:

  • f(x)0f(x) \geq 0
  • f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1

P(aXb)=abf(x)dxP(a \leq X \leq b) = \int_a^b f(x) dx (área bajo la curva)

Para continuas: P(X=x)=0P(X = x) = 0 exactamente — siempre se pregunta por intervalos.

🛠️ En la práctica

Ejemplo — número de ventas:

Una vendedora tiene la siguiente distribución de ventas diarias:

xx (ventas) 0 1 2 3 4
p(x)p(x) 0.10 0.20 0.35 0.25 0.10

Esperanza: E[X]=0(0.10)+1(0.20)+2(0.35)+3(0.25)+4(0.10)E[X] = 0(0.10) + 1(0.20) + 2(0.35) + 3(0.25) + 4(0.10)

=0+0.20+0.70+0.75+0.40=2.05= 0 + 0.20 + 0.70 + 0.75 + 0.40 = 2.05 ventas/día

Varianza: E[X2]=0+0.20+1.40+2.25+1.60=5.45E[X^2] = 0 + 0.20 + 1.40 + 2.25 + 1.60 = 5.45

σ2=5.45(2.05)2=5.454.2025=1.2475\sigma^2 = 5.45 - (2.05)^2 = 5.45 - 4.2025 = 1.2475

σ=1.24751.12\sigma = \sqrt{1.2475} \approx 1.12 ventas (desviación estándar)


2.2 Distribución binomial

💡 Intuición

La distribución binomial modela el número de éxitos en nn ensayos independientes, donde cada ensayo tiene probabilidad pp de éxito.

Ejemplos:

  • ¿Cuántos de 10 clientes compran? (si cada uno compra con probabilidad 0.3)
  • ¿Cuántos artículos de 100 son defectuosos? (si cada uno tiene 2% de defecto)
  • ¿Cuántas respuestas correctas al azar en un examen de 20 preguntas verdadero/falso?

El patrón: n ensayos, 2 resultados posibles (éxito/fracaso), probabilidad constante, independencia entre ensayos.

📐 Fundamento

XB(n,p)X \sim B(n, p) — "X tiene distribución binomial con nn ensayos y probabilidad de éxito pp."

Función de probabilidad:

P(X=k)=(nk)pk(1p)nk,k=0,1,,nP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n

donde (nk)=n!k!(nk)!\binom{n}{k} = \frac{n!}{k!(n-k)!} es el coeficiente binomial ("nn elige kk").

Media y varianza:

μ=E[X]=np\mu = E[X] = np
σ2=Var(X)=np(1p)\sigma^2 = Var(X) = np(1-p)

Condiciones para usar binomial:

  1. nn ensayos fijos.
  2. Cada ensayo tiene solo 2 resultados: éxito (p) o fracaso (1-p).
  3. Los ensayos son independientes.
  4. La probabilidad pp es constante.

🛠️ En la práctica

Ejemplo — control de calidad:

Una máquina produce artículos con 5% de defecto. Se revisa una muestra de 10 artículos. ¿Cuánta probabilidad hay de que exactamente 2 sean defectuosos?

n=10n = 10, p=0.05p = 0.05, k=2k = 2:

P(X=2)=(102)(0.05)2(0.95)8=45×0.0025×0.66340.0746P(X = 2) = \binom{10}{2} (0.05)^2 (0.95)^8 = 45 \times 0.0025 \times 0.6634 \approx 0.0746

Hay 7.46% de probabilidad de encontrar exactamente 2 defectuosos.

μ=10×0.05=0.5\mu = 10 \times 0.05 = 0.5 defectuosos en promedio. σ=10×0.05×0.950.69\sigma = \sqrt{10 \times 0.05 \times 0.95} \approx 0.69.

Probabilidad acumulada: ¿Probabilidad de encontrar 2 o menos defectuosos?

P(X2)=P(X=0)+P(X=1)+P(X=2)P(X \leq 2) = P(X=0) + P(X=1) + P(X=2)

=(0.95)10+10(0.05)(0.95)9+45(0.05)2(0.95)8= (0.95)^{10} + 10(0.05)(0.95)^9 + 45(0.05)^2(0.95)^8

=0.5987+0.3151+0.0746=0.9884= 0.5987 + 0.3151 + 0.0746 = 0.9884

Con 98.84% de probabilidad, una muestra de 10 tiene 2 o menos defectuosos.


2.3 Distribución normal

💡 Intuición

La distribución normal (o "gaussiana") es la famosa curva de campana. Aparece en casi todo en la naturaleza y en los negocios: alturas de personas, pesos de productos, errores de medición, calificaciones de exámenes.

¿Por qué es tan común? El Teorema Central del Límite (TLC) lo explica: si sumás muchas variables aleatorias independientes (sin importar su distribución individual), la suma tiende a ser normal. La campana no es solo un capricho — es una consecuencia matemática profunda.

La normal tiene dos parámetros: la media μ\mu (dónde está centrada) y la desviación estándar σ\sigma (qué tan ancha es).

📐 Fundamento

XN(μ,σ2)X \sim N(\mu, \sigma^2) — "X tiene distribución normal con media μ\mu y varianza σ2\sigma^2."

Función de densidad:

f(x)=1σ2πe(xμ)22σ2f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}

Propiedades:

  • Simétrica alrededor de μ\mu
  • Media = Mediana = Moda = μ\mu
  • El área total bajo la curva = 1
  • Regla 68-95-99.7:
    • 68% de los datos están en [μσ,μ+σ][\mu - \sigma, \mu + \sigma]
    • 95% en [μ2σ,μ+2σ][\mu - 2\sigma, \mu + 2\sigma]
    • 99.7% en [μ3σ,μ+3σ][\mu - 3\sigma, \mu + 3\sigma]

Normal estándar ZN(0,1)Z \sim N(0, 1):

Transformación: Z=XμσZ = \frac{X - \mu}{\sigma} (estandarización)

Esta transformación convierte cualquier normal en la normal estándar, que tiene tablas precalculadas. En la práctica moderna se usa software (Excel, Python, R) para calcular directamente.

En Excel / Python:

from scipy.stats import norm

# P(X < x) para N(mu, sigma)
norm.cdf(x, loc=mu, scale=sigma)

# Percentil (valor x tal que P(X < x) = p)
norm.ppf(p, loc=mu, scale=sigma)

🛠️ En la práctica

Ejemplo — salarios en San Miguel:

Los salarios mensuales de cierta industria en San Miguel siguen una distribución normal con media $\mu = $450$ y desviación estándar $\sigma = $80$.

¿Qué porcentaje gana entre 370y370 y 530?

370=μσ370 = \mu - \sigma y 530=μ+σ530 = \mu + \sigma. Regla del 68%: 68% de los empleados.

¿Probabilidad de ganar más de $600?

Z=(600450)/80=1.875Z = (600 - 450) / 80 = 1.875

P(X>600)=P(Z>1.875)=1Φ(1.875)10.9697=0.0303P(X > 600) = P(Z > 1.875) = 1 - \Phi(1.875) \approx 1 - 0.9697 = 0.0303

Solo el 3% gana más de $600.

¿Cuánto gana el 90% más bajo (percentil 90)?

Z0.90=1.282Z_{0.90} = 1.282 → $X = 450 + 1.282 \times 80 \approx $552.6$

El 90% de los empleados gana menos de $552.60.

Verificar normalidad: Antes de usar la distribución normal, verificá visualmente con un histograma (debería ser aproximadamente simétrico y con forma de campana) o con un QQ-plot.


2.4 Distribución t-Student

💡 Intuición

La distribución normal requiere conocer σ\sigma (la desviación estándar de la población). Pero casi nunca la conocés — solo tenés la muestra y su desviación estándar ss.

William Gosset (que firmaba como "Student" por razones de confidencialidad) encontró en 1908 la distribución exacta para muestras pequeñas cuando no se conoce σ\sigma: la distribución t-Student.

La t-Student se parece a la normal (curva de campana) pero tiene colas más pesadas — es más conservadora, asignando más probabilidad a valores extremos. Cuando el tamaño de muestra aumenta, la t-Student se acerca cada vez más a la normal. Para n>30n > 30 o n>100n > 100 (según el criterio), la diferencia es mínima.

📐 Fundamento

Tt(ν)T \sim t(\nu) — distribución t-Student con ν=n1\nu = n - 1 grados de libertad (donde nn es el tamaño de muestra).

Cuándo usar t-Student:

  • La muestra es relativamente pequeña (n<30n < 30, aunque algunos dicen n<100n < 100)
  • La variable de interés sigue (aproximadamente) distribución normal
  • σ\sigma (desviación de la población) es desconocida — se usa ss en su lugar

Estadístico t:

t=xˉμ0s/nt = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}

donde:

  • xˉ\bar{x}: media muestral
  • μ0\mu_0: media hipotética bajo H0H_0
  • ss: desviación estándar muestral
  • nn: tamaño de muestra

Valores críticos comunes (ν\nu grados de libertad, prueba bilateral):

ν\nu t0.025t_{0.025} (95%) t0.005t_{0.005} (99%)
5 2.571 4.032
10 2.228 3.169
20 2.086 2.845
30 2.042 2.750
∞ (normal) 1.960 2.576

En Python: from scipy.stats import t; t.ppf(0.975, df=n-1)

🛠️ En la práctica

Ejemplo — tiempo de entrega:

Una empresa de mensajería asegura entrega en 24 horas. Se toma una muestra de 15 entregas: media xˉ=26.3\bar{x} = 26.3 horas, desviación estándar muestral s=4.1s = 4.1 horas.

¿Cuánta probabilidad hay de obtener xˉ=26.3\bar{x} = 26.3 o más si la media real fuera 24?

t=26.3244.1/15=2.31.0592.17t = \frac{26.3 - 24}{4.1/\sqrt{15}} = \frac{2.3}{1.059} \approx 2.17

Con ν=14\nu = 14 grados de libertad, P(T>2.17)0.024P(T > 2.17) \approx 0.024.

Si hubiera que decidir si el tiempo real supera 24 horas, este valor (p=0.024<0.05p = 0.024 < 0.05) sugeriría que sí — la empresa no cumple su promesa. Esto es lo que verás en detalle en el capítulo de pruebas de hipótesis.


2.5 Teorema Central del Límite

💡 Intuición

Este es el teorema más importante de la estadística. Dice que si tomás muestras de tamaño nn de cualquier distribución con media μ\mu y varianza σ2\sigma^2 finitas, la distribución de las medias muestrales se aproxima a una normal cuando nn es suficientemente grande.

¿Por qué importa? Porque te permite hacer inferencias (intervalos de confianza, pruebas de hipótesis) usando la distribución normal o t-Student, incluso si la variable original no es normal, siempre que la muestra sea suficientemente grande (n30n \geq 30 como regla práctica).

📐 Fundamento

Teorema Central del Límite (TLC):

Si X1,X2,,XnX_1, X_2, \ldots, X_n son variables aleatorias i.i.d. (independientes e idénticamente distribuidas) con E[Xi]=μE[X_i] = \mu y Var(Xi)=σ2<Var(X_i) = \sigma^2 < \infty, entonces:

Xˉ=1ni=1nXidN ⁣(μ,σ2n)cuando n\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} N\!\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{cuando } n \to \infty

Error estándar de la media:

SE=σnSE = \frac{\sigma}{\sqrt{n}}

A medida que nn aumenta, el error estándar disminuye — las medias muestrales se concentran más alrededor de la media real.

Implicación práctica: Con n30n \geq 30, la media muestral sigue aproximadamente una distribución normal, independientemente de la distribución original.


2.6 Ejercicios

✏️ Ejercicio 2.1 — Binomial

Un vendedor de seguros llama a 8 personas. La probabilidad de vender un seguro en cada llamada es 0.25.

a. ¿P(exactamente 3 ventas)? b. ¿P(al menos 1 venta)? c. ¿Cuál es el número esperado de ventas y su desviación estándar?

✏️ Ejercicio 2.2 — Normal

El peso de bolsas de maíz en una distribuidora sigue N(2.0 kg,(0.1)2)N(2.0 \text{ kg}, (0.1)^2).

a. ¿P(bolsa pesa entre 1.9 y 2.1 kg)? b. ¿P(bolsa pesa menos de 1.85 kg)? c. ¿Qué peso tiene el 5% más pesado de las bolsas?

✏️ Ejercicio 2.3 — TLC

El gasto diario de clientes en una tienda tiene media $\mu = $45$ y desviación estándar $\sigma = $15$ (distribución desconocida, no normal).

Se toma una muestra de 36 clientes.

a. ¿Cuál es la distribución de la media muestral Xˉ\bar{X}? b. ¿P(Xˉ>50\bar{X} > 50)? c. ¿Para qué tamaño de muestra nn el error estándar sería menor a $$2$?


2.7 Para profundizar


Definiciones nuevas: variable aleatoria, discreta, continua, valor esperado, varianza, distribución binomial, distribución normal, distribución t-Student, grados de libertad, estandarización, error estándar, Teorema Central del Límite.