Taller Ofensivo OWASP Top 10 para LLM

Este taller intensivo de 8 horas está diseñado para profesionales de seguridad ofensiva que desean comprender, atacar y evaluar aplicaciones basadas en Modelos de Lenguaje de Gran Tamaño (LLMs) desde una perspectiva práctica y realista.

A lo largo del taller, los participantes explorarán la superficie de ataque específica de los sistemas basados en LLM, incluidas arquitecturas modernas como la Generación Aumentada por Recuperación (RAG), agentes autónomos y plugins, para identificar cómo se introducen y explotan vulnerabilidades a través de los flujos de datos, los prompts y las fuentes de conocimiento. El enfoque está alineado con el OWASP Top 10 para LLMs, trasladando los conceptos clásicos de AppSec a los nuevos desafíos que plantea la inteligencia artificial.

Nota: Cada módulo tendrá una duración aproximada de 2 horas.

Contenido

Módulo 1: Introducción

Logística, objetivos y contexto del curso

Programa de 1 día + laboratorio aibreaker.io
Red Teaming de IA generativa: LLMs, agentes, MCP
Alineación con OWASP y MITRE ATT&CK
Superficies de ataque: prompt injection, data exfil, jailbreaks
Campañas contra agentes MCP: escalación y lateral movement

Módulo 2: Arquitectura y Fundamentos Técnicos de IA

Mapeo de la superficie de ataque en aplicaciones LLM

IA vs ML vs DL · Entrenamiento e Inferencia
Redes neuronales, tokenización, embeddings, self-attention
Qué es un LLM: next-token prediction, alucinaciones
RAG: indexing pipeline + retrieval pipeline + grounding
Arquitecturas: API directa, orquestación, agentes

Módulo 3: Inyección de Instrucciones (Prompt Injection)

Manipulación del LLM vía entradas diseñadas

Inyección directa vs indirecta (tabla comparativa)
Extracción de System Prompt: 7 estrategias documentadas
Jailbreaking: DAN, roleplay, ficción, token smuggling
Inyección indirecta en RAG: HTML, email, documentos
Escenarios: Bing Chat Sydney, ChatGPT plugins, email agents

Módulo 4: Exposición de Datos Sensibles

Revelación de información confidencial por el LLM

Tipos en riesgo: PII, secretos, IP, financieros, PHI, multi-tenant
Vectores: memorización, fuga RAG, cross-tenant, system prompt
Técnicas: repetición, completado, contexto específico
Fuga RAG: consulta amplia, evasión de filtros, metadatos
Escenarios: Samsung/ChatGPT leak, GPT-2 PII extraction

Módulo 5: Vulnerabilidades en Cadena de Suministro

Riesgos en modelos, datasets, bibliotecas y plugins

Componentes: modelos, datasets, bibliotecas, formatos, plugins
Deserialización insegura de Pickle → RCE
Backdoors en modelos pre-entrenados (trigger-based)
Dependency confusion (caso PyTorch torchtriton)
Escenarios: Hugging Face poisoning, PyTorch supply chain

Módulo 6: Envenenamiento de Datos y Modelos

Manipulación de datos de entrenamiento, fine-tuning y RAG

Tipos: label flipping, backdoor, RAG/embedding/online poisoning
Fases vulnerables: collection → processing → training → RAG
RAG poisoning: docs envenenados + manipulación de relevancia
Escenarios: Wikipedia poisoning, backdoor en clasificación
Herramientas: TextAttack, ART, Burp Suite, scripts custom

Módulo 7: Manejo Inseguro de Salidas

LLM como puente hacia vulnerabilidades web clásicas

Downstream: XSS, SQL Injection, Command Injection, SSTI
Flujo: prompt malicioso → LLM → sistema downstream sin validación
XSS vía LLM: cookie stealer, src attribute, HTML injection
SQL Injection vía LLM: UNION, enumeración de tablas
Command Injection + reverse shell a través de LLM

Módulo 8: Agencia Excesiva (Excessive Agency)

Herramientas, permisos y autonomía sin control adecuado

Categorías: funcionalidad, permisos, autonomía excesiva
IDOR a través de tool calling (enumeración de user IDs)
Explotación de funciones peligrosas (delete, admin, transfer)
Evasión de confirmación humana (bypass human-in-the-loop)
Inyección en ciclo ReAct: Thought/Action/Observation falsos

Módulo 9: Fuga de Instrucciones del Sistema

Extracción de System Prompt y propiedad intelectual

Info sensible en prompts: lógica, secretos, arquitectura, roles
Solicitud directa: autoridad, urgencia, admin claims
Cambio de contexto: roleplay, storytelling, adivinanzas
Transformación: traducción, Base64, ROT13, inversión, spell-check
Exfiltración indirecta: preguntas, inferencia, completado

Módulo 10: Debilidades en Vectores e Incrustaciones

Ataques a RAG, bases vectoriales y embeddings

Envenenamiento: texto oculto (white-on-white), semántico, MCP
Inversión de embeddings: Vec2Text (92% recuperación de texto)
Filtración cross-tenant en bases vectoriales compartidas
Inyección de enlaces maliciosos en contexto RAG
Escenarios: ConfusedPilot (M365 Copilot), MIMIC-III attack

Módulo 11: Desinformación (Misinformation)

Alucinaciones, sycophancy y sobredependencia del usuario

Taxonomía: alucinación factual/código, sesgo, fabricación fuentes
Sycophancy: modelo confirma info falsa sin debunking
Slopsquatting: paquetes software alucinados (supply chain risk)
Sobredependencia en dominios críticos: salud, finanzas, derecho
Escenarios: Mata v. Avianca ($5K multa), Air Canada chatbot

Módulo 12: Consumo Ilimitado (Unbounded Consumption)

DoS, Denial of Wallet, extracción de modelo, canales laterales

DoS: inundación, context overflow, bucles de razonamiento infinito
Denial of Wallet: LLMjacking ($46K+/día), inflación de tokens
Extracción de modelo vía API: surrogate training, caja negra
Amplificación en agentes: cascadas de tool calls, auto-scaling
Escenarios: Sourcegraph (ago 2023), LLMjacking Sysdig (2024)

Audiencia Objetivo

Pentesters, Red Teamers, Consultores de Seguridad Ofensiva y Equipos de AppSec que buscan especializarse en la evaluación de aplicaciones basadas en IA.

Requerimientos

Se requiere que cada participante tenga una máquina virtual con Sistema operativo con Docker y acceso a internet para los ejercicios en la nube.
Sólidos conocimientos en pentesting de aplicaciones web (OWASP Top 10 clásico)
Experiencia práctica con herramientas como Burp Suite
Familiaridad con entornos Linux y Docker
Comprensión básica de conceptos de API y scripting (Python preferido)
Lab en la nube: https://aibreaker.io

Ponente: Jean Paul Granados (MANDIANT)

Jean Paul es Consultor de Mandiant basado en Colombia. Hace parte del Red Team y su principal función es evaluar la postura de seguridad y el nivel de exposición que tienen los clientes ante ciberataques, el Sr Granados ha participado en diferentes proyectos internacionales donde ha asesorado empresas de diversos sectores y campos productivos en temas de gestión de vulnerabilidades, actividades de seguridad ofensivas, evaluación de superficies de ataque y campañas de ingeniería social. El Sr. Granados tiene una amplia experiencia en la parte ofensiva con más de 10 años de experiencia ejecutando pruebas sobre aplicaciones web, aplicaciones móviles, redes Wireless, escenarios internos y pruebas de ingeniería social físicas y virtuales.

Antes de Mandiant, el Sr. Granados se desempeñó como consultor Ethical hacking para diferentes firmas consultoras en ciberseguridad internacionales, donde se encargaba de ejecutar proyectos de diseño de arquitecturas de red seguras, pruebas ofensivas sobre diferentes entornos, test de ingeniería social, participación en incidentes y capacitaciones ofensivas. El Sr. Granados también trabajó como docente en la Universidad Los Libertadores, ha sido conferencista e inició su carrera trabajando en el IT como analista para una firma de consultoría colombiana.

Logros y proyectos

Descubrir y publicar 3 vulnerabilidades en el programa EMSigner (CVE-2023-43900, CVE-2023-43901 y CVE-2023-43902).
Pruebas ofensivas para diferentes clientes en EE.UU y Latinoamérica.
Capacitar al equipo ofensivo de Red Team que tenía a su cargo.
Cátedra sobre Análisis de Vulnerabilidades en la Universidad Los Libertadores.
Apoyar el diseño de arquitecturas de red seguras en diferentes clientes de Latinoamérica.

Educación

Especialización en Teleinformática, Posgrado de la Universidad Distrital Francisco José de Caldas, 2019.
Ingeniería Electrónica, Facultad de Ingeniería Fundación Universitaria Los Libertadores, 2007.

Certificaciones

Exam 410: Installing and Configuring Windows Server 2012 (Microsoft), 2014
Certified Ethical Hacker (CEH), 2016
Offensive Security Certified Professional (OSCP), 2018
Check Point Certified Admin CCSA (Check Point), 2018
Offensive Security web Expert (OSWE), 2020
API Penetration Testing (APIsec University), 2022
Certificado Red Team OPS Developer (Spartan Cybersecurity), 2022
Certificado de Pentesting contra la nube AWS (Spartan Cybersecurity), 2022
Azure Application Security: Beginners Edition Bootcamp (Pentester Academy), 2022
Certified Hybrid Multi-Cloud Red Team Specialist Training (CyberWarFare Labs), 2022
The Bug Hunter’s Methodology Live Course (Jason Jaddix), 2024
Curso “Certified Azure Red Team Professional (Altered Security)”, 2024
Curso AZ-500 (Microsoft), 2024
Masterclass: How to Hack AI Agents and Applications (Joseph Thacker) – Marzo 2025
Agentic  AI  Security  &  MCP — Hack and Defend Autonomous Agents (Haxor Ventures LLC) – Agosto 2025
Hacking AI (Haxor Ventures LLC) – Mayo 2025
AI Red Teaming and AI Security Masterclass (Maven) – Marzo 2025
Attacking AI (Arcanum – Jason Haddix) – Junio 2025
Certified AI/ML Pentester (SecOps Group) – Diciembre 2025
AI Penetration Testing (Ignite Technologies) – Febrero 2026
AI & LLM Exploitation Challenges (8KSec) – Febrero 2026
AI Red Teamer (HTB Academy) – En Progreso