LLM: De aliado a trampa: cómo controlar los riesgos de los ataques adversarios en el entorno de ejecución de la IA

24 de noviembre de 2025

La integración de los modelos de lenguaje a gran escala (LLM) está transformando rápidamente el panorama de las aplicaciones empresariales, con la promesa de mejoras considerables en productividad y rendimiento. Sin embargo, esta rápida adopción también introduce una nueva generación de vulnerabilidades críticas que los equipos operativos y estratégicos deben abordar de frente.

El Grupo Squad y su filial de integración y proveedor de servicios de seguridad gestionados (MSSP), Squad Cybersolutions (antes Newlode), se comprometen a arrojar luz sobre estos nuevos retos. Gracias a esta experiencia, hemos organizado, como venimos haciendo desde hace ocho años en el foro «Assises de la Cybersécurité» de Mónaco, nuestras sesiones de demostración «Techlab».

El taller «IA: de aliada a trampa – cuando su uso se vuelve en tu contra», presentado por Sébastien BOULET (ingeniero principal y jefe del equipo DevSecOps en Squad Cybersolutions), tuvo un gran éxito en 2025. De hecho, el CESIN solicitó que se volviera a impartir en el Campus Cyber de La Défense el 21 de noviembre de 2025. Esta sesión puso de relieve los peligros concretos que surgen cuando la IA, que se supone que es una aliada, es desviada en el mismo corazón de su entorno de ejecución, el tiempo de ejecución de la IA.

La era de los LLM y la proliferación de riesgos

La revolución Transformer, iniciada alrededor de 2017, ha dado lugar a la aparición de los LLM (modelos de lenguaje a gran escala), que funcionan mediante la predicción del siguiente token. Estos modelos, aunque potentes, no se basan en una comprensión real, sino en patrones estadísticos.

La adopción está creciendo de forma exponencial: el 47 % de las empresas afirmaba estar desarrollando aplicaciones basadas en IA en 2025, y Palo Alto Networks prevé que habrá 100 000 aplicaciones de IA para empresas de aquí a 2026. Al mismo tiempo, la proliferación de modelos disponibles, con más de 2,1 millones solo en Hugging Face (a principios de octubre de 2025), multiplica los vectores de amenaza.

Los modelos de lenguaje grande (LLM) y los sistemas que los incorporan son intrínsecamente vulnerables a los ataques maliciosos. Estas vulnerabilidades se identifican, entre otros, mediante marcos específicos como MITRE ATLAS.

El uso indebido de los LLM: inyección y envenenamiento

Los ataques contra los modelos de lenguaje grande (LLM) aprovechan su incapacidad para distinguir de forma fiable entre instrucciones legítimas y contenido malicioso, incluso cuando los modelos han sido entrenados para garantizar la seguridad.

1. La inyección de prompts (Prompt Injection)

La inyección de entradas maliciosas está clasificada como el riesgo número uno (LLM01:2025) porla OWASP para las aplicaciones de IA. Permite a un atacante utilizar entradas diseñadas intencionadamente para alterar el comportamiento o el resultado previsto del modelo.

Se manifiesta principalmente de dos formas:

Inyección directa: el atacante introduce las instrucciones maliciosas directamente en la interfaz de usuario (chat, campo de búsqueda).
La inyección indirecta de prompts (IPI): es la forma más insidiosa y preocupante desde el punto de vista de la seguridad. Las instrucciones maliciosas se integran en fuentes externas (documentos, correos electrónicos, páginas web, respuestas de API) que el LLM ingiere y procesa como contexto. La IPI elude las validaciones de entrada tradicionales y ejecuta los comandos con privilegios del sistema. Estas instrucciones pueden ocultarse en comentarios HTML, texto invisible (blanco sobre blanco) o metadatos, lo que las hace indetectables para el ojo humano. El IPI puede convertir un LLM en una puerta de entrada para intrusiones, permitiendo la fuga de datos o la ejecución de acciones no autorizadas a través de las API a las que tiene acceso.

2. El envenenamiento de datos (Data Poisoning)

El envenenamiento es un ataque en el que un actor malintencionado manipula intencionadamente los datos utilizados para entrenar o alimentar los sistemas de IA. Incluso ligeras alteraciones en los datos pueden distorsionar el comportamiento del modelo.

La contaminación puede producirse durante el proceso de transferencia de datos (data poisoning) o directamente en el modelo (model poisoning), especialmente en entornos de aprendizaje federado.
Entre los tipos de ataques se encuentran los ataques dirigidos (que hacen que el modelo ignore un tipo específico de malware) y los ataques no dirigidos (que reducen el rendimiento general), así como los ataques de puerta trasera (backdoor attacks), que insertan activadores ocultos en el sistema.

Consecuencias y casos prácticos

Los riesgos asociados a los ataques de los adversarios no son meras hipótesis; se traducen en fallos de seguridad, pérdidas económicas y una pérdida de confianza.

Contaminación de los datos: Se ha demostrado que basta con un 0,001 % de tokens corruptos para invalidar un modelo, lo que puede propagar desinformación. Esta contaminación persiste, ya que los resultados de los LLM se utilizan posteriormente para entrenar modelos futuros.
Pérdida de control y fuga de datos: una infraestructura de IA no protegida constituye un punto débil actual. El ataque puede provocar la fuga de información confidencial (violación de la privacidad), la propagación de desinformación o la interrupción de las operaciones.
Secuestro de agentes de IA (memoria persistente): Los agentes de IA dotados de memoria a largo plazo (utilizados para retener el contexto entre sesiones) constituyen una nueva superficie de ataque. Una inyección indirecta de comandos puede contaminar silenciosamente la memoria del agente insertando instrucciones maliciosas que persisten. Estas instrucciones se inyectan posteriormente en los comandos de orquestación (instrucciones del sistema) de futuras sesiones, lo que amplía el potencial de impacto y permite la exfiltración silenciosa del historial de conversaciones.
Ejemplo de consecuencia económica: En diciembre de 2023, el chatbot de Chevrolet de un concesionario fue manipulado mediante una simple inyección de comandos para que aceptara vender un vehículo de gran valor (76 000 dólares) por solo 1 dólar.

Nuestra respuesta: Proteger el entorno de ejecución de la IA

Ante esta nueva frontera de riesgos, el Grupo Squad se posiciona como un experto capaz de garantizar una ciberseguridad sólida y proactiva. Nuestra misión, «Securing Together», hace hincapié en la inteligencia colectiva y en la capacidad de integrar soluciones de vanguardia.

El Techlab «IA: de aliada a trampa» ha demostrado de forma concreta cómo se llevan a cabo estos ataques directamente en el entorno de ejecución de la IA, donde la confianza prima sobre la vigilancia.

Squad Cybersolutions, en su calidad de integrador experto y MSSP, ofrece un enfoque de defensa en profundidad contra estas amenazas, basado en prácticas de seguridad esenciales, entre las que destaca la protección del entorno de ejecución de la IA.

Para reforzar la seguridad cibernética de las organizaciones, las estrategias de mitigación deben ser de múltiples niveles:

Garantizar la protección del modelo (AI Runtime): Se hace hincapié en la seguridad del entorno de ejecución de la IA. Las soluciones de los socios, como las de Palo Alto Networks destacadas durante el Techlab, permiten reforzar cada eslabón del entorno de ejecución de la IA:
- Auditoría de dependencias y configuraciones.
- Controles de ejecución e instrumentación en tiempo real.
- Vigilancia del comportamiento para hacer frente a las amenazas.
- Uso de soluciones como Prisma AIRS para detectar y bloquear ataques de solicitud de información y prevenir la fuga de datos en tiempo real.
Filtrado y validación rigurosos: es imprescindible depurar el contenido antes de introducirlo en el LLM, eliminando las etiquetas HTML ocultas, los metadatos y el texto fuera de pantalla, que los atacantes utilizan para ocultar instrucciones.
Delimitación del contexto: Las indicaciones deben diseñarse con límites claros para separar las instrucciones del sistema de confianza del contenido externo no fiable, con el fin de reducir el riesgo de que el modelo obedezca a un texto malicioso.
Principio del privilegio mínimo: restringir las capacidades operativas del LLM, asignarle claves API con un mínimo de permisos y exigir una validación humana para las acciones delicadas.

En conclusión, la ciberseguridad moderna exige reconocer que los modelos de lenguaje grande (LLM), aunque son aliados poderosos, representan vectores de ataque sin precedentes. El Grupo Squad y Squad Cybersolutions se comprometen a acompañar a los equipos de seguridad en el dominio técnico de estos nuevos entornos, transformando herramientas aisladas en una defensa coordinada. A través de nuestra experiencia y nuestros Techlab, trabajamos para que la innovación en IA sea sinónimo de seguridad y no de vulnerabilidad.