
¿Qué es un ataque de inyección de prompts? Proteger los prompts de IA con confianza
Definición
La inyección de comandoses una vulnerabilidad de seguridad en la que se incrusta contenido malicioso o no fiable en los datos procesados por unmodelo de lenguaje a gran escala, lo que puede provocar que los sistemas autónomos realicen acciones no autorizadas o no deseadas. Cuando un atacante logra inyectar instrucciones maliciosas en un comando, el sistema de IA interpreta este contenido como directivas legítimas y actúa en consecuencia.
El auge de los sistemas de IA agentiva supone un cambio fundamental en la forma en que las organizaciones implementan la inteligencia artificial. A diferencia de las herramientas de IA generativa, que se limitan a responder a indicaciones con texto o archivos multimedia, los sistemas de IA agentiva llevan a cabo acciones autónomas con consecuencias en el mundo real. Esta evolución plantea una vulnerabilidad de seguridad crítica: la inyección de indicaciones. A medida que los agentes de IA adquieren la capacidad de acceder a los sistemas empresariales, ejecutar consultas en bases de datos e iniciar transacciones financieras, comprender y defenderse contra los ataques de inyección de comandos se vuelve esencial para mantener la seguridad de la organización y la integridad operativa.
¿Qué es la inyección inmediata?
En el contexto de los sistemas de IA con capacidad de acción, la inyección de comandos es el equivalente en IA a los ataques de inyección de código en software tradicionales. La diferencia fundamental radica en cómo estos sistemas procesan las instrucciones:
- Inyección de código tradicional: aprovecha las vulnerabilidades de las aplicaciones deterministas escritas en un lenguaje de programación tradicional
- Inyección de comandos: Aprovecha la incapacidad inherente de los sistemas de IA para distinguir entre instrucciones fiables y contenido malicioso incrustado en datos de lenguaje natural
La gravedad de la inyección de prompts se agrava drásticamente en entornos de IA agentiva. Mientras que la inyección de prompts en la IA generativa puede generar respuestas engañosas o contenido inapropiado, el mismo ataque contra un sistema agentivo puede dar lugar a:
- Llamadas no autorizadas a la API de sistemas empresariales críticos
- Fuga de datos de bases de datos seguras
- Abuso de privilegios y escalada de acceso no autorizado
- Realización de tareas no previstas con repercusiones significativas en la empresa
- Transacciones financieras realizadas sin la debida autorización
- Cambios en la configuración de la infraestructura que ponen en riesgo la seguridad
En los sistemas basados en agentes, las indicaciones funcionan como programas no deterministas escritos en lenguaje natural. Este cambio de paradigma eleva drásticamente el nivel de riesgo en materia de seguridad, transformando lo que antes era una cuestión de moderación de contenidos en un problema crítico de seguridad de las infraestructuras.
Entender la inyección de comandos: la vulnerabilidad principal
¿Qué hace posible la inyección inmediata?
El principal reto que plantea la inyección instantánea radica en la forma en que los agentes de IA procesan las instrucciones en lenguaje natural. A diferencia software tradicional, software la ejecución del programa sigue una secuencia predefinida de instrucciones precisas, los sistemas de IA interpretan todas las entradas mediante los mismos mecanismos de procesamiento del lenguaje natural.
Los agentes de IA reciben indicaciones que sirven de directrices para guiar su comportamiento y su toma de decisiones. Estas indicaciones constituyen la principal interfaz para controlar las acciones de los agentes, lo que las convierte en una superficie de ataque crítica. El agente no puede determinar por sí mismo si una instrucción concreta procede de un administrador de confianza o si ha sido introducida por un atacante en los datos que se están procesando.
Los investigadores en materia de seguridad reconocen cada vez más esta limitación arquitectónica. Tal y comodescribeSimon Willison, creador del marco web Django,en su análisis de «la trifecta letal»,la combinación de los modelos de lenguaje grande (LLM), el acceso a datos privados y la capacidad de actuar sobre sistemas externos crea un escenario en el que la mezcla de entradas fiables y no fiables puede dar lugar a resultados de ejecución peligrosos. Cuando los modelos no pueden distinguir de forma fiable entre instrucciones y datos, la confusión contextual se vuelve inevitable.
Esta realidad de diseño genera varias vulnerabilidades específicas:
- Confusión de contexto: los agentes tienen dificultades para mantener una distinción clara entre las instrucciones del sistema, las indicaciones del usuario y el contenido de los datos
- Ambigüedad del lenguaje natural: la flexibilidad del lenguaje natural dificulta el establecimiento de reglas de análisis sintáctico rígidas que permitan distinguir las instrucciones legítimas de las maliciosas
- Entrada de múltiples fuentes: los agentes suelen procesar datos procedentes de múltiples fuentes al mismo tiempo, lo que aumenta la probabilidad de que el contenido malicioso se interprete como instrucciones
- Interpretación semántica: los sistemas de IA dan prioridad a la comprensión de la intención frente a la validación estricta de la sintaxis, lo que los hace vulnerables a intentos de inyección redactados de forma ingeniosa
Vea la plataforma Keyfactor en acción y descubra cómo encontrar, controlar y automatizar todas las identidades de las máquinas.

La evolución de la IA conversacional a la IA agentiva
La transición de la IA conversacional a la IA autónoma supone un cambio fundamental en el perfil de riesgo. Un chatbot que proporciona información incorrecta causa molestias y puede dañar la reputación. Un agente de IA que realiza consultas no autorizadas en bases de datos, inicia transacciones financieras o modifica configuraciones de infraestructura causa daños importantes, entre los que se incluyen:
- Interrupciones del servicio que afectan a las operaciones comerciales
- Auditorías de cumplimiento fallidas y sanciones reglamentarias
- Pérdidas económicas derivadas de transacciones no autorizadas
- Fugas de datos que ponen en peligro información confidencial
El Protocolo de Contexto de Modelos (MCP) constituye la tecnología clave que permite a los agentes de IA acceder a software externos de forma estandarizada. Gracias a los servidores MCP conectados —cada uno de los cuales actúa como una API especializada para acceder a la tecnología existente—, un agente de IA puede ahora tomar medidas para alcanzar sus objetivos, en lugar de limitarse a generar respuestas.
Los sistemas de IA con capacidad de agencia se caracterizan por tres capacidades fundamentales:
1. Capacidad de ejecución autónoma: la capacidad de llevar a cabo acciones con consecuencias en el mundo real, en muchos casos sin necesidad de que un ser humano apruebe cada paso
2.Acceso a herramientas y API: integración con sistemas empresariales, bases de datos, servicios en la nube y API externas
3. Razonamiento en varias etapas: Descomposición de objetivos generales en secuencias de acciones concretas
Estas capacidades aportan un enorme valor, comparable al de contratar personal nuevo, pero también introducen superficies de ataque que los modelos de seguridad tradicionales no abordan de forma adecuada. El proveedor de la aplicación ya no se interpone entre el usuario y la IA, lo que elimina un punto de control fundamental en el que tradicionalmente se llevaban a cabo la validación de entradas y el filtrado de salidas.
Cómo funcionan los ataques de inyección de comandos
Un ataque de inyección de comandos que tiene éxito sigue un patrón predecible que aprovecha la arquitectura fundamental de los sistemas de IA agentiva:
1. Inyección: se inserta una instrucción maliciosa en datos o contenidos controlados por el usuario que el agente de IA va a procesar
2. Interpretación: El modelo de IA interpreta el contenido malicioso como parte de su conjunto de instrucciones de confianza, sin distinguirlo de las instrucciones legítimas.
3. Ejecución: el agente lleva a cabo acciones no deseadas basándose en las instrucciones inyectadas, lo que podría dar lugar a un acceso a sistemas o datos que exceden su ámbito previsto
4. Propagación: En los sistemas multiagente, la instrucción maliciosa puede propagarse a través de un «efecto teléfono», en el que se pierde el contexto sobre las entradas fiables frente a las no fiables a medida que las directivas pasan de un agente a otro.
El problema del «juego del teléfono» en los sistemas multiagente representa un aspecto especialmente insidioso de la inyección de comandos. Un agente puede recibir un comando y delegar parte del trabajo a otros agentes. A medida que la información pasa por varios agentes, se puede perder el contexto que indica qué partes de la directiva proceden de fuentes fiables y cuáles provienen de datos de usuario no fiables. Varios agentes más adelante en la cadena, un agente puede actuar sobre lo que originalmente eran datos no fiables enviados por el usuario como si se tratara de una directiva autorizada.
Para obtener un análisis más detallado de las técnicas y los patrones de ataque reales, consulta nuestra publicación sobre cómo funcionan los ataques de inyección de comandos.
Inyección de comandos frente a la inyección de código tradicional
Comprender la relación entre la inyección de comandos y la inyección de código tradicional ayuda a los equipos de seguridad a aplicar los marcos de modelización de amenazas que ya conocen a esta nueva clase de vulnerabilidades:
| Característica | Inyección de código | Inyección inmediata |
| Idioma | Lenguajes de programación tradicionales | Lenguaje natural |
| Ejecución | Compilado o interpretado mediante analizadores sintácticos determinísticos | Razonamiento y interpretación semántica de los modelos de lenguaje grande (LLM) |
| Validación | Comprobaciones de seguridad estáticas y saneamiento de entradas | Análisis dependiente del contexto con determinismo limitado |
| Superficie de riesgo | Capa de aplicación con puntos de entrada definidos | Capa de razonamiento de IA más capa de acceso a la API |
| Control de fronteras | La firma de código garantiza una ejecución segura | Es necesario firmarlo cuanto antes para garantizar una ejecución segura |
| Detección | Detección basada en patrones y firmas | Requiere un análisis semántico y un seguimiento del comportamiento |
El paso de entornos de ejecución deterministas a no deterministas cambia radicalmente la forma en que las organizaciones deben abordar los controles de seguridad. Las técnicas tradicionales de validación de entradas, que funcionan eficazmente contra la inyección de código —como la inclusión de caracteres específicos en listas de permitidos o el escape de sintaxis especial—, resultan insuficientes para entradas en lenguaje natural, en las que prácticamente cualquier frase podría constituir una instrucción válida.
El panorama de amenazas para los sistemas de IA con agencia
Los sistemas de IA agentiva se enfrentan a un panorama de amenazas muy variado que va más allá de la simple inyección de comandos y abarca múltiples vectores de ataque:
Los ataques de inyección de comandosinsertan contenido malicioso en los datos que procesa el agente, con el fin de anular o modificar las instrucciones de este. Estos ataques se aprovechan de la incapacidad del agente para distinguir entre directivas fiables y datos no fiables.
Los ataques de repeticiónreenvían directivas previamente autorizadas para provocar una ejecución repetida no autorizada. Si las directivas carecen de validación de vigencia, un atacante que capture una directiva legítima firmada puede repetirla indefinidamente.
Las amenazas internassurgen cuando usuarios autorizados emiten órdenes fuera de su ámbito de competencia, aprovechando potencialmente su acceso legítimo para realizar acciones no autorizadas a través de agentes de IA.
Los sistemas de origen comprometidosconstituyen puntos de integración legítimos que han sido vulnerados y que ahora emiten instrucciones maliciosas que parecen proceder de fuentes fiables.
Los ataques de ingeniería socialmanipulan a los operadores humanos para que aprueben o emitan instrucciones no autorizadas, aprovechando el factor humano en los flujos de trabajo de autorización de los agentes de IA.
Cómo evitar la inyección inmediata
La defensa contra la inyección inmediata requiere un enfoque de seguridad por capas que combine múltiples controles complementarios. Ningún mecanismo por sí solo aborda todos los vectores de amenaza, por lo que es esencial aplicar una defensa en profundidad.
Arquitectura de seguridad por capas
Las arquitecturas recomendadas incorporan controles complementarios para abordar los distintos aspectos del panorama de amenazas:
Nivel de supervisión humana: los flujos de trabajo de aprobación con intervención humana para operaciones de alto riesgo constituyen un punto de control final antes de que se ejecuten las acciones críticas.
Capa de análisis semántico: los filtros basados en IA realizan análisis de intención y detección de anomalías, detectando incumplimientos de las políticas que los métodos sintácticos pasan por alto.
Aplicación del ámbito de autorización: los límites basados en roles sobre lo que pueden hacer los agentes de IA en los sistemas empresariales garantizan que ni siquiera los responsables de la aprobación autorizados puedan sobrepasar sus competencias.
Base de confianza criptográfica: la verificación de firmas con aplicación de marcas de tiempo constituye la capa fundamental que garantiza la fiabilidad de las capas superiores.
Gestión y supervisión del ciclo de vida: la gestión completa del ciclo de vida de los certificados de identidad de los agentes, los certificados de firma inmediata y los certificados de identidad de los aprobadores garantiza una visibilidad y un control exhaustivos.
En este modelo, la firma criptográfica no es una opción más entre otras: es la base que garantiza la fiabilidad de las capas superiores. El análisis semántico de una directiva sin firmar ofrece conclusiones sobre contenidos de procedencia desconocida, lo que hace que no se puedan aplicar. El análisis semántico de una directiva firmada permite interpretarla con confianza en la autenticidad del contenido.
Separación de contextos y aislamiento basado en roles
Establecer límites claros entre los distintos tipos de contenido y aplicar controles de acceso basados en roles ayuda a limitar el alcance de los posibles daños derivados de ataques de inyección que tengan éxito.
Entre las estrategias clave se incluyen:
- Separación de las instrucciones del sistema y los datos proporcionados por el usuario en el contexto del agente
- Establecer límites basados en roles sobre a qué pueden acceder determinados agentes
- Aplicar el ámbito de autorización para garantizar que los responsables de la aprobación no puedan exceder sus competencias
- Uso de instancias de agente independientes para distintos contextos de seguridad
- Aplicación del principio del privilegio mínimo para el acceso a la API del agente
Firma criptográfica instantánea
La firma criptográfica ofrece garantías de procedencia e integridad similares a las de la firma de código en los sistemas PKI. Este enfoque proporciona una garantía matemáticamente verificable de que las directivas proceden de fuentes autorizadas y no han sido modificadas.
El proceso de firma inmediata funciona de la siguiente manera:
1. Firma: Los proveedores de directivas autorizados firman las instrucciones con una clave criptográfica mediante una solución de firma empresarial
2. Distribución: La directiva firmada, la firma y la cadena de certificados se distribuyen conjuntamente al agente
3. Verificación: Las firmas se verifican con las claves públicas correspondientes antes de la ejecución.
4. Control de la vigencia: la validación de la marca de tiempo garantiza que las directivas estén actualizadas y evita los ataques de repetición
5. Ejecución: solo se transmiten al agente de IA las directivas que superan la validación de la firma para que actúe en consecuencia
Propiedades de seguridad fundamentales que se consiguen mediante la firma criptográfica:
- Autenticidad irrefutable: una firma válida constituye una prueba matemática de que la orden fue emitida por una entidad que controla la clave privada correspondiente
- Protección contra la manipulación: cualquier modificación de una directiva firmada invalida la firma, independientemente del número de sistemas por los que pase la directiva
- Verificación desacoplada: la verificación de la firma solo requiere la clave pública y puede realizarse íntegramente dentro del ámbito de confianza del agente
- Exhaustividad de la auditoría: las directivas firmadas pueden registrarse junto con sus firmas, lo que permite una verificación posterior
- Control total del fideicomiso: las organizaciones mantienen un control total sobre las relaciones de fideicomiso al designar su propia raíz empresarial como la única PKI desde la que se puede autorizar la firma inmediata
Para prevenir estos ataques es necesario establecer límites de confianza que se puedan hacer cumplir. Descubre estrategias prácticas de mitigación en «Cómo prevenir los ataques de inyección de comandos en sistemas de IA agentiva».
El papel Keyfactoren la protección contra la inyección inmediata
La inyección de comandos plantea, en esencia, un problema de confianza e integridad. Las organizaciones necesitan garantías verificables de que las instrucciones dadas a los agentes de IA proceden de fuentes autorizadas y no han sido manipuladas.Keyfactor este reto aplicando principios probados de PKI a los sistemas de IA mediante la firma criptográfica de comandos.
Firma instantánea criptográfica conKeyfactor
Keyfactor las organizaciones implementar arquitecturas integrales de firma inmediata que establecen cadenas de confianza verificables desde el origen de la directiva hasta la ejecución por parte del agente. Este enfoque se asemeja a la firma tradicional software , aplicando los mismos principios de seguridad a los programas de lenguaje natural no deterministas:
Las solicitudes autorizadas se firman criptográficamentemedianteKeyfactor SignServer, que ofrece servicios de firma centralizados que eliminan la complejidad de la gestión de claves de las fuentes de directivas. Los sistemas que necesitan firmar directivas invocan una API de firma sin llegar a poseer ni gestionar directamente las claves privadas.
Las firmas se verifican antes de que los agentes ejecutenlas directivas. El proceso de verificación garantiza que solo se ejecuten aquellas instrucciones que cuenten con firmas válidas procedentes de certificados vinculados a una CA de confianza. Cualquier modificación de la directiva tras su firma —ya sea por parte de una capa de orquestación comprometida, un registro de contenedores o un montaje de volumen— provoca un error en la verificación de la firma.
La autorización respaldada por certificadospermite un control granular sobre qué sistemas pueden emitir qué tipos de directivas. Los servicios de firma basados en políticas aplican las reglas de autorización en el momento de la firma, trasladando la aplicación de la autorización del agente al servicio de firma, donde puede gestionarse de forma centralizada.
La protección contra la manipulaciónse consigue mediante la verificación criptográfica de la integridad. El carácter a prueba de manipulaciones de las firmas digitales garantiza que cualquier alteración de una directiva firmada invalide la firma, independientemente del número de sistemas por los que pase dicha directiva.
La mitigación de los ataques de repeticiónse basa en la validación de firmas con marca de tiempo. El servicio de firma incluye una marca de tiempo fiable en la carga útil firmada, y el agente verificador rechaza las firmas más antiguas que un umbral configurable adecuado para el caso de uso.
Las múltiples interfaces de integraciónpermiten adaptarse a diversos entornos de implementación.SignServer API REST para aplicaciones nativas de la nube, PKCS#11 para sistemas que requieren interfaces de proveedores criptográficos estándar y Windows KSP para la integración en el ecosistema de Microsoft.
PKI empresarial para la seguridad de la IA
Las soluciones PKI para empresas Keyfactorproporcionan las capacidades básicas necesarias para implementar la firma instantánea a gran escala:
La gestión centralizada de claveselimina la complejidad y el riesgo que supone distribuir claves privadas a fuentes externas. La generación, el almacenamiento (incluido el respaldo en HSM), la rotación y la revocación de claves se gestionan de acuerdo con la política de la organización.
La aplicación de políticasgarantiza que las reglas de autorización se apliquen de manera coherente en todas las operaciones de firma de directivas. Se pueden utilizar diferentes certificados de firma para diferenciar los casos de uso, lo que permite que cada agente tenga acceso a los sistemas adecuados.
La gestión del ciclo de vidaautomatiza la renovación de certificados y la comprobación de revocaciones, incorporando estos requisitos operativos en los procesos de implementación de agentes desde el principio.
Las funciones de auditoría y cumplimiento normativoofrecen una visibilidad completa de qué directivas se han firmado, quién las ha firmado y cuándo, lo que facilita los análisis forenses, el cumplimiento normativo y la resolución de disputas.
Abordar los retos operativos
Las soluciones Keyfactorabordan los retos prácticos a los que se enfrentan las organizaciones a la hora de implementar la firma inmediata:
La complejidad de la gestión de clavesse resuelve mediante servicios de firma centralizados que abstraen todas las operaciones relacionadas con las claves de las fuentes directas. Las organizaciones que carecen de experiencia en PKI pueden implementar la firma inmediata sin necesidad de desarrollar capacidades criptográficas especializadas.
La vulnerabilidad a los ataques de repeticiónse mitiga mediante la inclusión de marcas de tiempo en el contenido firmado, lo que permite garantizar la vigencia del contenido de acuerdo con el perfil de riesgo de cada caso de uso.
El control de autorizaciones limitadose mejora al ir más allá de las decisiones de confianza binarias para admitir la firma basada en políticas, que aplica las reglas de autorización en el momento de la firma, impidiendo así que tanto las fuentes no autorizadas como las autorizadas se salgan de su ámbito de aplicación.
Las dificultades de integraciónse reducen al mínimo gracias a unas API flexibles que se integran con los flujos de trabajo de CI/CD existentes, las plataformas de orquestación y los procesos de implementación de agentes.
Preguntas frecuentes sobre la inyección inmediata
La inyección de comandos manipula las instrucciones que se dan a un agente de IA, lo que hace que este realice acciones no autorizadas. La filtración de comandos, por el contrario, extrae instrucciones ocultas del sistema o datos confidenciales del contexto de la IA. Aunque ambas suponen un riesgo para la seguridad, la inyección de comandos se centra en la manipulación de acciones, mientras que la filtración de comandos se centra en la divulgación de información.
No. Cualquier sistema basado en modelos de lenguaje grande (LLM) es vulnerable a la inyección de comandos, especialmente aquellos con capacidad para ejecutar API y acceso a sistemas empresariales. El riesgo es especialmente grave en el caso de los sistemas de IA con capacidad de actuación autónoma, que pueden llevar a cabo acciones por sí mismos en lugar de limitarse a generar respuestas de texto. Las organizaciones que implementan agentes de IA con acceso a bases de datos, API o infraestructuras críticas se enfrentan a riesgos de inyección de comandos, independientemente del proveedor de LLM que utilicen.
El filtrado de entradas y la moderación de contenidos constituyen valiosas capas de defensa, pero no pueden eliminar por completo los riesgos de inyección de comandos. La flexibilidad del lenguaje natural hace que resulte extremadamente difícil crear filtros que detecten todas las instrucciones maliciosas sin bloquear al mismo tiempo los casos de uso legítimos. Los controles criptográficos de integridad ofrecen mayores garantías, ya que verifican el origen y la integridad de las instrucciones en lugar de intentar analizar su contenido en busca de intenciones maliciosas.
Los sistemas multiagente se enfrentan a un problema similar al del «juego del teléfono», en el que el contexto relativo a las entradas fiables frente a las no fiables puede perderse a medida que las directivas se propagan entre los agentes. Un agente inicial puede recibir una solicitud que contenga tanto instrucciones autorizadas como datos de usuario no fiables. A medida que este agente delega tareas a otros agentes, la distinción entre estos tipos de contenido puede perderse. Varios agentes más adelante en la cadena, un agente puede actuar sobre lo que originalmente eran datos de usuario no fiables como si se tratara de una directiva autorizada, lo que amplía drásticamente la superficie de ataque y el impacto potencial. Los sistemas que dependen de la gestión manual de certificados o de algoritmos codificados de forma rígida suelen tener una madurez baja en cuanto a la agilidad criptográfica.
El uso de plantillas y listas blancas puede resultar eficaz en entornos estrictamente controlados.
Al definir un registro de plantillas de directivas preaprobadas, las organizaciones pueden aplicar controles deterministas y auditables. Cada directiva debe ajustarse a un patrón aprobado antes de su ejecución, lo que elimina la ambigüedad y limita el espacio de entrada.
Sin embargo, este enfoque no se adapta bien a la escalabilidad. A medida que se amplían los casos de uso, los registros de plantillas se vuelven difíciles de gestionar. Las solicitudes novedosas pero legítimas pueden bloquearse por defecto, y las tareas puntuales o muy dinámicas no se adaptan bien a plantillas rígidas.
Las plantillas de comandos funcionan mejor para operaciones repetitivas y de alta frecuencia con directivas naturalmente limitadas. Para cargas de trabajo de agentes más amplias, resultan más eficaces cuando se combinan con firmas criptográficas y controles de seguridad por capas, en lugar de utilizarse como defensa independiente.