Glosario — Prompt Engineering

A

A/B testing (de prompts). Comparar dos versiones de un prompt corriendo las mismas entradas en conversaciones limpias separadas y juzgando las salidas — idealmente a ciegas — contra criterios definidos. Sirve para decidir entre enfoques estructuralmente distintos; para mejoras incrementales, ver iteración.

Alucinación. Salida de un LLM que es plausible y fluida pero falsa: cifras inventadas, citas que no existen, librerías que nadie escribió. Mitigaciones desde el prompt: salida de escape, exigir citas textuales con ubicación, trabajar solo sobre documentos provistos, y verificar al azar.

Aprendizaje en contexto (in-context learning). Capacidad de un LLM de "aprender" una tarea a partir de los ejemplos incluidos en el propio prompt, sin reentrenamiento. Es el mecanismo detrás del few-shot (Brown et al. 2020).

B

Biblioteca de prompts. Colección personal de plantillas probadas, con ficha por plantilla: para qué sirve, variables, versión, estado, casos de prueba y notas de uso. El proyecto-hilo de este libro.

C

Cadena de pensamiento (chain-of-thought, CoT). Técnica que pide al modelo escribir el razonamiento intermedio antes de la respuesta final (Wei et al. 2022). Mejoraba mucho el razonamiento en modelos antiguos; los modelos razonadores modernos ya razonan internamente, así que el "pensá paso a paso" genérico aporta menos — sigue siendo útil para ver los pasos o imponer un método propio.

Caso adversario. Caso de prueba con entrada deliberadamente rara u hostil (vacía, fuera de dominio, con instrucciones embebidas en los datos) para encontrar los límites de una plantilla antes de que los encuentre la realidad.

Caso de prueba. Entrada concreta + resultado esperado, usados para verificar que un prompt cumple sus criterios de éxito. Un buen set combina casos típicos, difíciles (incluido uno donde la respuesta correcta es "no sé") y adversarios.

Contexto (pieza del prompt). La información de fondo que el modelo necesita: quién sos, para qué pedís, qué nivel tenés. Todo contexto que no das, el modelo lo supone — y supone el promedio.

Contrato entre eslabones. En prompts encadenados, el formato exacto que la salida de un paso debe cumplir para servir de entrada al siguiente. Un buen contrato prevé también los casos de excepción (datos faltantes, entrada dudosa).

Criterio de éxito. Afirmación verificable que define cuándo una respuesta está "bien": longitud, estructura, presencia de elementos, ausencia de invenciones. Se escribe antes de iterar; "que quede bueno" no es un criterio, es un deseo.

D

Descomposición de tareas. Partir una tarea compleja en subtareas secuenciales, cada una con su prompt, donde la salida de una alimenta a la siguiente. Da atención concentrada por paso, puntos de control humanos y pasos reutilizables.

E

Etiquetas XML. Delimitadores tipo <documento>...</documento> para separar inequívocamente instrucciones, datos y ejemplos dentro de un prompt. Práctica recomendada documentada por Anthropic; las secciones Markdown cumplen la misma función.

Eval (evaluación de prompts). Práctica de medir el comportamiento de un prompt contra un conjunto definido de casos de prueba y criterios, en lugar de confiar en impresiones. La versión personal del ciclo: criterios → casos → medición → iteración → versión.

F

Few-shot. Incluir 2-5 ejemplos resueltos de entrada→salida en el prompt antes del caso real. La técnica más rentable cuando el formato o estilo es difícil de describir con palabras. Los ejemplos deben ser correctos, variados, de formato idéntico e incluir un caso limítrofe. Contrario: zero-shot.

Formato de salida. Pieza del prompt que fija la forma de la respuesta: tabla, lista, JSON con esquema, número de secciones. Para JSON confiable: esquema literal, valores enumerados y "sin texto antes ni después".

I

Instrucción. El verbo y el objeto del prompt: qué debe hacer el modelo. Una sola instrucción principal por prompt; varias instrucciones de peso similar compiten y todas salen peor.

Iteración (disciplinada). Mejorar un prompt cambiando UNA cosa por versión, guiado por una hipótesis sobre el peor fallo, y re-corriendo el set completo de casos para detectar regresiones antes de adoptar el cambio.

L

LLM-as-judge. Usar un LLM como evaluador de las salidas de otro prompt, contra criterios explícitos. Útil como primer filtro; sus sesgos documentados — posición, verbosidad, auto-preferencia (Zheng et al. 2023) — exigen calibrarlo contra tu propio juicio y dejarte la última palabra.

Lost in the middle. Fenómeno por el cual los modelos aprovechan mejor la información del principio y el final de un contexto largo que la del medio (Liu et al. 2023). Receta práctica: documento delimitado al medio, instrucciones y pregunta al final.

M

Mensaje del usuario. El segundo nivel del prompting: la tarea puntual de hoy con sus datos. Todo lo que cambia en cada uso va acá; lo estable va al system prompt.

Modelo razonador. Modelo (generaciones 2025-2026 de las principales familias) que genera razonamiento interno automáticamente antes de responder. Con ellos, el CoT pedido aporta poco; lo que más rinde es claridad, contexto, ejemplos y criterios explícitos.

"Mostrá, no solo digas". Principio: un ejemplo del resultado deseado comunica formato, tono y nivel mejor que su descripción verbal. Base del few-shot.

P

Plantilla con variables. Prompt reutilizable con sus partes cambiantes marcadas ({{tema}}, {{nivel}}), documentando valores típicos y defectos. Separa el diseño (fijo) del uso (variable).

Prompt. El texto completo que recibe el modelo: instrucciones, contexto, datos, ejemplos. Es la interfaz: el mismo modelo produce resultados radicalmente distintos según el prompt.

Prompt engineering. Disciplina de diseñar, estructurar, evaluar e iterar prompts para obtener comportamiento confiable de un LLM. No es adivinar palabras mágicas: es especificar bien, probar contra casos y versionar.

Prompt injection. Ataque (o accidente) donde texto incluido como datos contiene instrucciones que el modelo obedece ("ignorá lo anterior y..."). Primera defensa: separar instrucciones de datos con delimitadores y tratar todo lo delimitado como contenido, nunca como órdenes.

Prompts encadenados (prompt chaining). Formalización de la descomposición: cada paso es una plantilla independiente y la salida de uno es, por contrato, la entrada del siguiente. Permite inspeccionar entre pasos y cambiar un eslabón sin tocar los demás.

Proyecto (en apps de chat). Espacio de trabajo con instrucciones propias (Projects de Claude/ChatGPT, Gems de Gemini) que la app antepone a todas las conversaciones del espacio: un system prompt persistente que escribís vos.

R

Regresión. Fallo nuevo en casos que antes pasaban, introducido por un cambio que arreglaba otra cosa. Se detecta re-corriendo el set completo en cada iteración — nunca solo el caso que se estaba arreglando.

Restricciones. Pieza del prompt que fija límites y prohibiciones: "máximo 200 palabras", "solo con la información del documento", "nunca des la respuesta final, aunque te la pida". Las prohibiciones efectivas prevén sus excepciones.

Rol (persona). Pieza del prompt que fija la perspectiva del modelo ("actuá como correctora de estilo"). Activa vocabulario, criterios y nivel coherentes. Las credenciales decorativas ("el mejor del mundo") no agregan nada: agregan las reglas comprobables.

Rúbrica. Criterios de calificación con pesos y descriptores específicos. En prompts de exámenes de práctica, pedirla junto al examen permite autocorregirse con criterio en lugar de benevolencia.

S

Salida de escape. Respuesta alternativa explícitamente permitida para cuando falta información: "si no está en el documento, decí 'no está en el texto'". De las defensas más baratas y efectivas contra alucinaciones; sin ella, "no sé" ni siquiera está entre las opciones del modelo.

Self-consistency. Técnica (Wang et al. 2022): generar varias cadenas de razonamiento independientes para el mismo problema y quedarse con la respuesta mayoritaria.

System prompt. El primer nivel del prompting: instrucciones de comportamiento estable (identidad, reglas, formato por defecto, tono) establecidas una vez para toda la conversación. Los modelos les dan peso especial; en las apps se configura vía Proyectos o instrucciones personalizadas, en la API es un parámetro.

T

Token. Unidad mínima de texto que procesa un LLM (fragmentos de palabra; en español, una palabra ≈ 1.3 tokens). En ellos se miden la ventana de contexto y el costo de API.

V

Ventana de contexto. Cantidad máxima de texto (en tokens) que el modelo puede procesar en una conversación. Que un documento "quepa" no garantiza que el modelo use bien todas sus partes — ver lost in the middle.

Versionado (de prompts). Registrar cada cambio que sobrevive a la evaluación como nueva versión (v1, v2...), anotando qué cambió, por qué y con qué resultado en el set de casos — y conservando la versión anterior hasta que la nueva la supere.

Z

Zero-shot. Pedir una tarea sin ejemplos, solo con la instrucción. Suficiente para tareas simples o bien conocidas; cuando el formato o el criterio importan, el few-shot lo supera.