Glosario — Inteligencia Artificial

A

Accuracy. Fracción de predicciones correctas. Engañosa con clases desbalanceadas.

Activación (función de). Función no-lineal aplicada al output de cada neurona: ReLU, sigmoide, tanh, GELU. Sin ella, una red profunda sería equivalente a una capa lineal.

Agente. LLM con capacidad de invocar herramientas (search, calculadora, código) para resolver tareas multi-paso.

Alucinación. LLM produciendo texto plausible pero falso. Mitigación: RAG con fuentes verificables, prompts pidiendo "no sé" si no hay evidencia.

Aprendizaje supervisado. Aprender de pares (input, label). Clasificación + regresión.

Aprendizaje no supervisado. Aprender estructura sin labels. Clustering, reducción de dimensionalidad.

Aprendizaje por refuerzo. Agente aprende interactuando con un entorno por recompensas. AlphaGo, RLHF.

Atención (self-attention). Mecanismo del transformer: cada token decide a qué otros tokens prestar atención mediante producto Q·K^T, softmax y suma ponderada de V.

AUC-ROC. Área bajo la curva ROC (TPR vs FPR). Métrica robusta a desbalance.

B

Backpropagation. Algoritmo de entrenamiento de redes: calcular gradientes de la pérdida respecto a cada peso, aplicando regla de la cadena hacia atrás.

Batch. Subconjunto de datos procesado en una iteración. Batch size afecta memoria, velocidad y estabilidad.

Bias. (1) Término aditivo en una neurona ( $wx + b$ ). (2) Sesgo en datos / modelo (sentido ético).

BERT. Bidirectional Encoder Representations from Transformers. Modelo de Google de 2018. Solo encoder.

BPE (Byte-Pair Encoding). Algoritmo de tokenización subword usado por GPT. Aprende fragmentos frecuentes.

C

Chain-of-thought (CoT). Prompt que pide al LLM "pensar paso a paso". Mejora razonamiento en matemáticas/lógica. No es interpretabilidad.

Clasificación. Predecir una clase discreta. Binaria (spam/no), multiclase (especie de Iris).

Cluster. Grupo de datos similares en aprendizaje no supervisado.

CNN (Convolutional Neural Network). Arquitectura para imágenes basada en convolución. Predecesora de ViT en visión moderna.

Confusion matrix. Tabla con TP, FP, TN, FN. Base para precision, recall, F1.

Context window. Longitud máxima de texto que un LLM puede procesar en una vez. 8k-2M tokens según modelo.

Cross-validation. Estimar performance entrenando $k$ veces sobre folds distintos. K-Fold, Stratified K-Fold, LeaveOneOut.

D

Data augmentation. Generar nuevos ejemplos de entrenamiento aplicando transformaciones (rotación, paráfrasis, etc.).

Data leakage. Información del test set se filtra al entrenamiento → métricas optimistas, mal performance en producción.

Demographic parity. Métrica de fairness: tasa de predicciones positivas igual entre grupos demográficos.

DPO (Direct Preference Optimization). Alternativa simple a RLHF para entrenar modelos con preferencias humanas. No requiere reward model separado.

E

Embedding. Vector denso que representa un objeto (palabra, oración, imagen). Objetos similares quedan cerca en el espacio.

Ensemble. Combinar varios modelos para mejorar robustez. Random Forest = ensemble de árboles. Boosting (XGBoost) = secuencial.

Entropía. Medida de incertidumbre. Base de árboles de decisión (information gain) y de pérdidas de clasificación (cross-entropy).

Equal opportunity. Métrica de fairness: TPR igual entre grupos.

Eval (evaluación). Conjunto de tests para medir un modelo. En LLMs: benchmarks como MMLU, HumanEval, ARC.

F

F1. Media armónica de precision y recall. Útil con clases desbalanceadas.

Fairness. Equidad del modelo entre subgrupos. Múltiples definiciones, a veces incompatibles.

Feature. Columna del input. La selección y la ingeniería de features es el 80 % del trabajo en ML clásico.

Few-shot. Prompt con 1-5 ejemplos antes de la tarea real. Mejora la consistencia del LLM.

Fine-tuning. Continuar entrenando un modelo pre-entrenado sobre un dataset específico.

G

GAN (Generative Adversarial Network). Generador + discriminador compitiendo. Genera imágenes/audios sintéticos. (Dominio reemplazado mayormente por difusión en 2024+.)

Gradient descent. Optimización iterativa en la dirección opuesta al gradiente de la pérdida.

Gradient explosion / vanishing. Gradientes muy grandes/pequeños durante backprop. Problemas en redes profundas, mitigados con ReLU, normalización, residuales.

H

Heurística. Función que estima qué tan cercana está una solución parcial al objetivo. Admisible = nunca sobreestima.

Hiperparámetro. Valor configurable antes de entrenar (LR, depth, batch size). Distinto de parámetros (los pesos).

I

Inferencia. Usar un modelo entrenado para predecir. Distinto de "training".

Imbalance. Una clase es mucho más frecuente que otra. Soluciones: stratify, oversampling (SMOTE), undersampling, class weights.

K

KNN (K-Nearest Neighbors). Clasifica por mayoría de los $k$ ejemplos más cercanos. $O(n)$ por predicción, lazy.

L

Learning rate. Tasa de avance en gradient descent. Demasiado alto: divergencia. Demasiado bajo: lentitud.

LIME. Local Interpretable Model-agnostic Explanations. Explica una predicción individual con un modelo lineal local.

LLM (Large Language Model). Modelo transformer con > 1B parámetros entrenado para predecir el siguiente token. GPT, Claude, Gemini.

LoRA (Low-Rank Adaptation). Fine-tuning eficiente: en vez de ajustar todos los pesos, ajustás matrices de bajo rango. Drásticamente más barato.

M

Modelo. Función parametrizada que se ajusta a datos. En ML: árbol, red, regresión.

MLP (Multi-Layer Perceptron). Red neuronal feedforward con 1+ capas ocultas. La "capa lineal + ReLU" clásica.

O

Overfitting. Modelo memoriza train, falla en test. Diagnóstico: gap grande entre train acc y test acc.

Optimizer. Algoritmo que actualiza pesos. SGD, Adam, AdamW, Lion.

P

Parámetro. Variable aprendida del modelo (peso, sesgo). En LLMs: 1B-1T parámetros.

Precision. TP / (TP + FP). De los que predije positivos, ¿cuántos lo son?

Pretraining. Fase costosa donde el LLM se entrena para predecir token siguiente sobre billones de tokens.

Prompt. Texto de entrada al LLM. La "ingeniería de prompts" es diseñar entradas que extraigan el comportamiento deseado.

Prompt injection. Ataque donde un input malicioso cambia el comportamiento del LLM. Mitigaciones: separar instrucciones de datos, validación.

Q

Quantization. Reducir la precisión de los pesos (32-bit → 8-bit / 4-bit) para inferencia más rápida con poca pérdida de calidad.

R

RAG (Retrieval-Augmented Generation). Patrón: buscar docs relevantes → inyectarlos en el prompt → LLM responde con contexto.

Recall. TP / (TP + FN). De los positivos reales, ¿cuántos detecté?

Regresión. Predecir un número continuo (precio, duración).

Regularización. Penalizar complejidad del modelo. L1 (sparsity), L2 (smooth), dropout (random off de neuronas).

ReLU. $\max(0, x)$ . Activación más usada en redes modernas.

RLHF. Reinforcement Learning from Human Feedback. Entrenamiento por preferencias humanas. Lo que hace que ChatGPT "se sienta útil".

ROC curve. TPR vs FPR a distintos thresholds.

S

Sigmoide. $\sigma(x) = 1/(1 + e^{-x})$ . Salida en (0, 1). Histórica para clasificación binaria.

Softmax. Generalización de sigmoide a múltiples clases. Output suma 1.

SHAP. SHapley Additive exPlanations. Atribuye contribución de cada feature a una predicción.

Sesgo (algorítmico). Modelo trata sistemáticamente diferente a subgrupos. Causas: datos sesgados, etiquetas sesgadas, métricas elegidas.

SFT (Supervised Fine-Tuning). Fase de entrenamiento de LLMs sobre conversaciones high-quality.

T

Tokens. Unidades subword en LLMs. ~1.3 por palabra en español.

Transformer. Arquitectura introducida en "Attention Is All You Need" (2017). Base de todos los LLMs modernos.

TPR/FPR. True Positive Rate / False Positive Rate. Componentes de ROC.

Train/test split. Dividir datos en entrenamiento + prueba. Típico 80/20. Si hay validación: 70/15/15.

V

Validation set. Conjunto separado para tuning de hiperparámetros. Distinto del test set, que se reserva para reportar al final.

Z

Zero-shot. El LLM resuelve una tarea sin ejemplos previos. Suficiente para tareas comunes; few-shot mejora consistencia.

Falta algo? Avisame.

Reportar error en este capítulo · Patrocinar este libro