Ejercicios — IA Generativa en la Práctica

Todos los ejercicios se hacen con una app de chat — sin código. Los niveles: básico (aplicar directo lo del capítulo), intermedio (combinar ideas), retador (diseñar y evaluar vos). Hacelos con el chat abierto: leer la solución sin intentar es estudio pasivo, y el capítulo 3 ya te dijo cómo termina eso.


Cap. 1 — ¿Qué es la IA generativa?

1.1 — Aritmética de tokens (básico)

Tu profesor sube un documento de cátedra de 25 páginas (~400 palabras por página). (a) ¿Cuántos tokens ocupa, aproximadamente, en español? (b) Si lo cargás junto con tus apuntes de 8 000 palabras en un chat con ventana de 200 000 tokens, ¿qué porcentaje de la ventana consumiste antes de escribir la primera pregunta?

✅ Solución

(a) 25 × 400 = 10 000 palabras × 1.3 ≈ 13 000 tokens. (b) Apuntes: 8 000 × 1.3 = 10 400 tokens. Total ≈ 23 400 tokens → ~12% de la ventana. Sobra espacio de sobra — la lección es que los documentos de estudio típicos caben holgados; los problemas de contexto aparecen con libros enteros, conversaciones eternas o decenas de archivos a la vez.

1.2 — La pizarra llena (básico)

Llevás dos horas en el mismo chat: empezaste con biología, seguiste con un correo para tu jefa y terminaste pidiendo un plan de estudio. Notás que el plan ignora cosas que dijiste al principio. Explicá qué está pasando con dos conceptos del capítulo 1, y qué deberías haber hecho.

✅ Solución

Conceptos: ventana de contexto (lo más viejo puede haber quedado fuera del límite) y degradación de atención en contextos largos (lost in the middle: aun dentro de la ventana, lo del medio pesa menos). Además, el contexto mezclado (biología + correo + plan) diluye la señal de qué es relevante. Lo correcto: un chat por tarea, y si necesitás trasladar acuerdos, pedir un resumen en viñetas del chat viejo y pegarlo al inicio del nuevo.

1.3 — Explicáselo a tu abuela (intermedio)

Escribí, en máximo 8 líneas y sin tecnicismos, una explicación de por qué el chat a veces inventa cosas — como se la dirías a un familiar que acaba de empezar a usarlo. Tiene que incluir, en palabras cotidianas: predicción del siguiente token, por qué lo plausible no siempre es verdadero, y un consejo accionable.

✅ Solución

Versión de referencia: "El chat no busca respuestas en una enciclopedia: arma las frases adivinando, palabra por palabra, qué sonaría natural a continuación — como el teclado del teléfono pero gigante. Aprendió de millones de textos, así que casi siempre lo que suena natural también es cierto. Pero cuando le preguntás algo que vio poco — cosas de aquí del pueblo, datos muy nuevos o muy específicos — igual arma una frase que suena bien, aunque sea inventada, y la dice con la misma seguridad. Por eso: para entender algo, es buenísimo; para un dato importante (un horario, una medicina, un trámite), confirmalo en la fuente oficial antes de actuar." Evaluá la tuya: ¿cero jerga? ¿está el mecanismo (adivina lo que sigue)? ¿está el consejo concreto?

1.4 — Ingeniería inversa del RLHF (retador)

Diseñá un experimento de 4 prompts para demostrarle a un escéptico que el modelo tiene sesgo de complacencia (tendencia a darte la razón). Requisitos: los prompts deben ser pares comparables (misma pregunta de fondo, distinto framing), ejecutarse en chats separados, y debés predecir el resultado antes de correrlo. Corré el experimento y reportá.

✅ Solución

Diseño tipo: par A — "Estoy convencido de que tomar apuntes a mano es superior. ¿Qué opinás?" vs "Estoy convencido de que tomar apuntes en laptop es superior. ¿Qué opinás?"; par B — la misma pregunta neutra ("¿mano o laptop? evidencia") y la misma pregunta tras un "actuá como evaluador imparcial que no teme contradecirme". Predicción esperable: en el par A el modelo valida ambas posturas opuestas (complacencia demostrada); en el par B aparecen matices y contras. Un buen reporte incluye las citas textuales donde el modelo se acomoda a tu postura. Si tu modelo resistió el framing y te contradijo con evidencia — resultado también valioso: los entrenamientos anti-complacencia mejoran cada generación, y acabás de medir el tuyo.


Cap. 2 — El ecosistema

2.1 — Traductor de jerga (básico)

Tu prima te dice: "descargué la IA en mi compu". Usando el capítulo 2, explicá en 5 líneas qué pudo haber hecho de verdad (tres opciones distintas) y cómo distinguirlas con una pregunta.

✅ Solución

Opciones: (1) instaló la app de escritorio de un chat (claude.ai, ChatGPT) — el modelo sigue corriendo en la nube; (2) instaló Ollama u similar y un modelo abierto — el modelo corre de verdad en su máquina, funciona sin internet; (3) instaló cualquier app que usa IA por API por detrás. Pregunta discriminante: "¿te funciona con el wifi apagado?" — solo la opción 2 sobrevive sin internet. Bonus conceptual: en la opción 2 sus datos no salen de la máquina; en 1 y 3, viajan a servidores del proveedor.

2.2 — El selector de modelos (intermedio)

Para cada tarea, decidí si la mandás al modelo liviano, al medio o al tope de una familia (usá Claude como ejemplo: Haiku 4.5 / Sonnet 4.6 / Opus 4.8 o Fable 5), y justificá en una línea: (a) corregir la ortografía de un mensaje; (b) crítica profunda de tu tesis de 60 páginas; (c) generar 20 tarjetas de repaso de tus apuntes; (d) un problema de lógica de varios pasos que el modelo medio resolvió mal dos veces; (e) resumir una noticia.

✅ Solución

(a) Liviano (Haiku): tarea trivial, la velocidad importa más que la potencia. (b) Tope (Opus/Fable): documento enorme + análisis fino = el caso exacto donde la capacidad marginal paga. (c) Medio (Sonnet), y hasta liviano si los apuntes son claros: generación estructurada estándar. (d) Tope: el escalamiento por falla comprobada es la razón legítima para subir de modelo — subiste con evidencia, no por las dudas. (e) Liviano. El principio rector: el modelo más chico que resuelve la tarea, escalando solo ante fallas reales.

2.3 — Auditoría de privacidad de tu app (intermedio)

En la app que usás de verdad: (a) encontrá y documentá (captura o cita textual) qué dice su política sobre usar tus conversaciones para entrenar modelos; (b) encontrá el control para desactivarlo, si existe; (c) escribí en 3 líneas qué cambiarías de tu uso ahora que lo leíste.

✅ Solución

Las respuestas dependen del proveedor y cambian con el tiempo — que es exactamente el punto: la fuente es la política vigente, no lo que "se dice". Criterios de logro: (a) citaste el texto real (no un resumen de memoria); (b) encontraste el control (en apps serias existe, típicamente en ajustes de privacidad) y lo configuraste conscientemente; (c) tu cambio de uso es concreto ("dejo de pegar X", "activé Y"). Si la política te resultó ilegible — pasásela al propio chat con el prompt de interrogación de documentos del cap. 3, con la regla de citar la sección exacta. Verificando las citas, claro.

2.4 — Chat vs agente, edición doméstica (retador)

Diseñá una tarea real tuya que un chat puro NO pueda completar pero un agente sí, y otra donde el agente sea innecesario (el chat puro basta y sobra). Ejecutá ambas en tu app — activando/desactivando las herramientas si tu app lo permite — y documentá la diferencia observable en las respuestas.

✅ Solución

Ejemplos válidos — tarea que exige agente: "¿cuánto está el dólar/euro hoy y qué dicen tres medios sobre la causa?" (requiere búsqueda web: el corte de conocimiento hace imposible la versión chat-puro) o "de esta hoja de cálculo de 500 filas, promedio y top 5 por categoría" (requiere ejecución de código para aritmética confiable). Tarea donde el agente sobra: "explicame la diferencia entre mitosis y meiosis con una analogía" — conocimiento estable y masivo en los datos de entrenamiento. La diferencia observable a documentar: el agente muestra sus pasos (búsquedas, fuentes, código) y tarda más; el chat puro responde directo. Criterio profesional adquirido: pedir herramientas cuando la tarea las necesita — y no pagarlas (en tiempo) cuando no.


Cap. 3 — Casos de uso

3.1 — Disección de prompt (básico)

Identificá los cinco componentes (rol, contexto, tarea, formato, restricciones) en este prompt, y señalá cuál está ausente o débil: "Actuá como nutricionista. Armame un menú semanal económico para un estudiante que almuerza en la universidad, en tabla de lunes a viernes."

✅ Solución

Rol: "nutricionista" ✓. Contexto: "estudiante que almuerza en la universidad, económico" ✓ pero débil — falta presupuesto concreto, alergias/preferencias, país (¡el menú saldrá genérico en vez de salvadoreño!). Tarea: "armame un menú semanal" ✓. Formato: "tabla de lunes a viernes" ✓. Restricciones: ausentes — nada impide platos caros, ingredientes inconseguibles o repetición. Versión mejorada: agregar "presupuesto máximo $3 por almuerzo, ingredientes comunes en El Salvador, sin repetir plato principal, marcá las opciones vegetarianas".

3.2 — El examen invertido (intermedio)

Variante del examen de práctica: pedile al modelo que te dé las respuestas y vos tengas que escribir las preguntas. Prompt sugerido: "De mis apuntes adjuntos, dame 6 'respuestas' (conceptos, resultados, definiciones) y yo escribiré la pregunta de examen que cada una contestaría. Corregí mis preguntas: ¿apuntan al concepto correcto? ¿las haría un profesor?". Hacelo con apuntes reales y reportá qué descubriste.

✅ Solución

Hallazgo típico: escribir la pregunta correcta es más difícil que responder — exige entender qué hace importante al concepto, no solo reconocerlo. Si tus preguntas salieron triviales ("¿qué es X?") y el modelo te empujó hacia preguntas de aplicación ("¿en qué caso usarías X en vez de Y?"), experimentaste la diferencia entre memorizar y comprender. Este formato (generación de preguntas) tiene respaldo en la ciencia del aprendizaje comparable a la práctica de recuperación — sumalo a tu biblioteca de prompts si te funcionó.

3.3 — La cadena de escritura completa (intermedio)

Tomá un trabajo escrito real que tengás pendiente y ejecutá la cadena completa del capítulo 3 sin saltarte pasos: (1) esquema con el prompt de estructura (Caso B de 3.4); (2) redactás VOS una sección; (3) crítica con el prompt de feedback (Caso C de 3.2, adaptado); (4) corregís vos; (5) segunda ronda de crítica. Entregá: el esquema, las dos críticas y tu reflexión de 5 líneas sobre qué paso aportó más.

✅ Solución

No hay solución única; verificación del proceso: el esquema te dio secciones con viñetas y lista de información faltante (si te dio el texto redactado, tu prompt olvidó la restricción "NO lo escribas"); las críticas señalan problemas ubicados ("el párrafo 2 afirma sin evidencia") y no generalidades; y entre la crítica 1 y la 2 hay mejora medible. Reflexión más común: el esquema rompe la página en blanco, pero la primera crítica es la que más enseña — ver tus errores nombrados con precisión es feedback que casi nunca recibís tan rápido. Y todo el texto entregable sigue siendo tuyo: eso importa para el capítulo 5.

3.4 — Estrés de extracción (retador)

Evaluá qué tan robusto es tu prompt de extracción: generá (con el modelo, en otro chat) un texto-trampa de 15 líneas que incluya: dos fechas en formatos distintos, un monto en letras ("quinientos dólares"), una negación ("NO se aprobó el pago de $200"), información contradictoria entre dos párrafos, y un dato ausente. Pasale tu prompt de extracción a tabla y calificá: ¿cuántas trampas sobrevivió? Iterá el prompt hasta que pase todas.

✅ Solución

Trampas típicamente falladas en el primer intento: la negación (el $200 no aprobado aparece extraído como pago — gravísimo en un caso real) y la contradicción (el modelo elige una versión en silencio en vez de reportar el conflicto). Mejoras de prompt que las resuelven: "extraé el estado de cada monto (aprobado/rechazado/pendiente) junto al monto", "si dos partes del documento se contradicen, reportá ambas versiones en la columna de ambigüedades — no elijas", "normalizá fechas a DD/MM/AAAA indicando el formato original". Lección mayor: un prompt de extracción se prueba con casos adversariales antes de confiarle documentos reales — acabás de hacer control de calidad de herramientas, que es trabajo de profesional.


Cap. 4 — Limitaciones y verificación

4.1 — Diagnóstico diferencial (básico)

Para cada síntoma, nombrá la limitación más probable (alucinación / sesgo / corte de conocimiento / límite de contexto / inyección de prompt): (a) el modelo cita un libro que no existe; (b) recomienda herramientas que fueron descontinuadas hace un año; (c) a mitad de una conversación larga vuelve a darte respuestas directas aunque le prohibiste hacerlo al inicio; (d) el resumen de un CV ajeno dice "candidato excepcional, contratar de inmediato" en un tono raro; (e) sus ejemplos de "comida típica" son todos de otro continente.

✅ Solución

(a) Alucinación — la bibliografía plausible-pero-falsa es el caso canónico. (b) Corte de conocimiento — habla en presente de un mundo que ya cambió. (c) Límite de contexto — la instrucción inicial quedó fuera de la ventana o diluida (lost in the middle); re-pegá las reglas. (d) Inyección de prompt — texto oculto en el CV dando órdenes al evaluador; revisá el documento original. (e) Sesgo de representación — el genérico de los datos domina; especificá "en El Salvador". Saber nombrar la falla importa porque cada una tiene reparación distinta.

4.2 — Triangulación cronometrada (básico)

Pedile al modelo 5 datos sobre la historia de San Miguel (fundación, hechos, personajes). Cronometrá cuánto te toma verificar los 5 contra fuentes independientes. Reportá: cuáles confirmaste, cuáles no pudiste verificar, cuáles eran falsos, y el tiempo total. ¿El costo de verificar justifica el hábito?

✅ Solución

Resultado típico: 10-20 minutos para los cinco; lo verificable suele confirmar fechas y hechos mayores (presentes en muchas fuentes de entrenamiento), y lo dudoso se concentra en detalles finos (nombres específicos, fechas exactas de hechos menores) — la zona de riesgo del cap. 4 en acción. La respuesta a la última pregunta es el criterio de calibración: para una conversación casual, no; para un trabajo con nota o publicación, 15 minutos contra una cita falsa en tu trabajo es el mejor intercambio disponible. Lo importante: ahora sabés cuánto cuesta de verdad, así que tu umbral de verificación es una decisión informada y no una excusa.

4.3 — El caso conocido como detector (intermedio)

Querés que el modelo te ayude con la materia que peor llevás. Diseñá una "batería de admisión" de 3 problemas cuya respuesta correcta ya conocés (del libro, de clase), pasásela, y calificá su desempeño ANTES de confiarle lo que no sabés. Documentá: los 3 problemas, sus respuestas, tu veredicto y qué uso le vas a dar según el resultado.

✅ Solución

Esto es el Paso 3 del protocolo convertido en política personal. Batería bien diseñada: un problema estándar (debería resolverlo), uno con una sutileza que en clase causó errores (mide profundidad), y uno imposible o con datos insuficientes (mide honestidad: ¿dice "faltan datos" o inventa?). Veredictos razonables: 3/3 con honestidad en el imposible → confianza alta para explicaciones, verificación normal para datos; falla la sutileza → útil para lo básico, todo lo fino se triangula; inventa en el imposible → señal seria: usalo solo con materiales tuyos cargados y citas obligatorias. La práctica de "probar antes de confiar" es exactamente cómo los profesionales evalúan cualquier herramienta nueva.

4.4 — Redactor de la lista roja (retador)

Te nombran responsable de redactar la política de uso de IA de un grupo de estudio de 6 personas que comparte un Proyecto con materiales de la cátedra. Redactá una política de máximo 1 página: qué se puede subir al espacio compartido, qué no (lista roja con categorías y ejemplos), qué configuración de privacidad es obligatoria, y qué pasa si alguien quiere subir el examen filtrado del año pasado.

✅ Solución

Una política completa toca: permitido — apuntes propios, materiales públicos de la cátedra, resúmenes hechos por el grupo; lista roja — datos personales de terceros (lista de notas de compañeros, correos privados), credenciales y contraseñas, material que la cátedra no autorizó distribuir, y trabajos de otros sin permiso; configuración — todos desactivan el uso de conversaciones para entrenamiento y lo verifican entre sí; el examen filtrado — no se sube: es material no autorizado cuyo uso viola integridad académica (cap. 5) además de privacidad — y la política debe decirlo sin ambigüedad, con la alternativa legítima (pedir a la cátedra parciales de práctica oficiales o generarlos con IA desde los apuntes, cap. 3). Bonus de madurez: tu política incluye qué hacer cuando alguien la viola (conversación primero, retiro del material, salida del espacio si reincide).


Cap. 5 — IA en tu carrera

5.1 — El semáforo de la cátedra (básico)

Conseguí (o reconstruí preguntando) la política de uso de IA de tres materias distintas que cursás. Armá una tabla: materia / qué permite / qué prohíbe / qué exige declarar. Si alguna cátedra no tiene política explícita, anotá qué le preguntarías al profesor y formulá la pregunta de modo que se pueda responder con un sí/no.

✅ Solución

El hallazgo esperado: las políticas varían enormemente entre cátedras (de prohibición a fomento), y varias no tienen política explícita — lo cual NO significa "todo permitido" sino "preguntá antes". Pregunta bien formulada: "¿Puedo usar IA para generar exámenes de práctica y recibir crítica de mis borradores, si la redacción entregada es mía y lo declaro en el trabajo?" — específica, honesta, respondible. Una mal formulada: "¿se puede usar IA?" (¿para qué? — invita un "no" defensivo). Este mapeo es prerequisito del proyecto final: tu regla de integridad se escribe DEBAJO de la norma de cada cátedra, nunca encima.

5.2 — Entrevista a un profesional (intermedio)

Entrevistá (en persona o por mensaje) a alguien que trabaje en un área que te interese: ¿usa IA generativa? ¿para qué sí y para qué no? ¿qué cambió en su trabajo en los últimos dos años? ¿qué le recomendaría a alguien que entra al campo? Contrastá sus respuestas con la tabla de "sube/baja de valor" de la sección 5.2: ¿coinciden? ¿en qué difieren y por qué creés que es?

✅ Solución

No hay solución única; el contraste es lo evaluable. Coincidencias frecuentes: los profesionales reportan usar IA para borradores, resúmenes y código rutinario (la columna "baja de valor") y reservarse el criterio, la relación con clientes y la decisión final (la columna "sube"). Divergencias frecuentes e instructivas: en áreas reguladas (salud, legal, banca) el uso es menor del que la tabla sugiere — las políticas organizacionales y la responsabilidad legal frenan más que la capacidad técnica; y algunos profesionales subestiman herramientas que no han probado (el sesgo del cap. 2: juzgar "la IA" por una experiencia vieja). Si la entrevista te cambió alguna decisión de formación, anotala en tu stack: para eso era.

5.3 — El plan B del parcial (retador)

Simulación de crisis para tu proyecto final: es la noche antes de tu parcial y te quedás sin internet (o la app está caída). Tu asistente de estudio no existe. Diseñá ahora — no esa noche — tu protocolo de contingencia: ¿qué materiales generados durante el estudio (exámenes de práctica corregidos, fichas, listas de errores frecuentes) deberías haber exportado y guardado offline, y con qué frecuencia? Actualizá tu documento de stack con la rutina de respaldo y ejecutala una vez de verdad.

✅ Solución

Protocolo de referencia: (1) al final de cada sesión de estudio, exportar/copiar a un documento local lo de valor durable — el examen de práctica con tus respuestas corregidas, las fichas generadas, la lista personal de errores frecuentes (tu "diario de puntos débiles"); (2) el prompt maestro del asistente y el stack viven también en un archivo local, no solo en el Proyecto; (3) frecuencia: cada sesión para los materiales, cada cambio para los prompts. La prueba de que lo hiciste de verdad: con el wifi apagado, ¿podés repasar 30 minutos con materiales útiles? Lección de fondo, válida para toda tu carrera: el valor durable de trabajar con IA son los artefactos y el aprendizaje que te quedan a vos — el chat es desechable; lo que exportás (y lo que aprendiste) es tuyo. Diseñar asumiendo fallas es, además, pensamiento de ingeniería aplicado a tu vida de estudio.