
¿Qué es Prompt Security? Guía para proteger las instrucciones de IA
Definición
La seguridad de las instruccioneses la disciplina que garantiza que las instrucciones dadas a los agentes de IA sean auténticas, no hayan sido modificadas, estén autorizadas y sean oportunas antes de su ejecución. A medida que los sistemas de IA evolucionan desde los chatbots conversacionales hasta convertirse en agentes autónomos que realizan tareas en el mundo real, las instrucciones que reciben tienen la misma importancia operativa que el código de las aplicaciones. Se necesita un marco que permita a las organizaciones distinguir las instrucciones aprobadas y autorizadas de las no aprobadas, filtrando las instrucciones no autorizadas antes de que un agente llegue a actuar en consecuencia.
La seguridad de las instrucciones es, en términos generales, el equivalente en IA de la seguridad de las aplicaciones para software tradicional. Mientras que la seguridad de las aplicaciones protege los programas compilados contra posibles vulnerabilidades, la seguridad de las instrucciones protege los programas en lenguaje natural que rigen el comportamiento de los agentes. Sin ella, las organizaciones carecen de un mecanismo fiable para verificar si las instrucciones que sigue un agente son legítimas.
Por qué los prompts de IA necesitan seguridad
El sector de la IA ha superado un umbral crítico. Una indicación ya no es una simple línea de diálogo, sino una orden para realizar una tarea. Se trata de un programa de lenguaje natural no determinista. Este cambio dela IA conversacionalala IA agentivamodifica de forma radical el cálculo de la seguridad.
Cuando un chatbot da una respuesta errónea, la consecuencia es un inconveniente —para un usuario exigente—. Este tipo de usuario lee la información incorrecta, se da cuenta del error y sigue adelante. Cuando un agente autónomo actúa siguiendo una directiva comprometida, las consecuencias son graves: consultas no autorizadas a bases de datos, transacciones financieras erróneas, configuraciones incorrectas de la infraestructura o la exposición de datos confidenciales. No se trata de escenarios hipotéticos. Representan la realidad operativa de implementar agentes de IA sin controles de seguridad a nivel de directiva.
Las repercusiones se agravan rápidamente. Una sola acción no autorizada por parte de un agente puede provocar interrupciones del servicio, incumplimientos normativos, pérdida de confianza de los consumidores y resultados negativos en las auditorías de cumplimiento. Las organizaciones que consideran la seguridad inmediata como algo secundario se enfrentan al mismo tipo de riesgo que aquellas que en su día ignoraron la seguridad de las aplicaciones web en producción.
Este nuevo panorama de amenazas exige una disciplina de seguridad específica. La seguridad de Prompt proporciona los marcos, los controles y los patrones arquitectónicos necesarios para garantizar que los agentes de IA operen dentro de los límites establecidos. Para profundizar en cómo los atacantes se aprovechan de los límites de las directivas, descubre cómo las vulnerabilidades de inyección de comandos socavan el comportamiento de los agentes.
El problema de la autorización de la Directiva
Antes de que cualquier agente de IA ejecute una instrucción, es necesario responder a cinco preguntas. Si no se aborda siquiera una de ellas, se crea una vulnerabilidad que puede ser aprovechada.
1. Autenticidad
¿Quién ha emitido esta directiva?
Un agente debe poder verificar que una directiva procede de una fuente conocida y fiable. Sin una prueba criptográfica de la autoría, un agente no puede distinguir entre una directiva procedente de un administrador autorizado y otra introducida por un adversario.
2. Integridad
¿Se ha modificado esta directiva?
Aunque una directiva fuera auténtica en el momento de su creación, puede haber sido alterada durante su transmisión. La verificación de la integridad garantiza que la directiva que recibe un agente sea idéntica a la que se emitió. Cualquier modificación, ya sea una sola palabra o una instrucción añadida, debe poder detectarse.
3. Autorización
¿Está autorizado el emisor a solicitar esta acción?
La autenticidad confirma la identidad; la autorización confirma el alcance. Un usuario verificado puede estar autenticado para interactuar con un agente, pero no autorizado para ordenarle que acceda a registros financieros, modifique la infraestructura o eluda los flujos de trabajo de aprobación.
4. Puntualidad
¿Está actualizada esta directiva?
Una directivaválida emitida hace unos segundos puede resultar peligrosa en este momento, o puede llegar a serlo en cualquier momento si se ejecuta dos veces. Los ataques de repetición reenvían instrucciones que antes eran legítimas en momentos no autorizados. Los controles de vigencia, como la aplicación de marcas de tiempo y la validación de nonces, garantizan que las directivas solo se ejecuten dentro de su periodo de validez previsto.
5. Seguridad semántica
¿Se ajusta el contenido de esta directiva a los límites de conducta esperados?
Incluso una directiva auténtica, sin modificar, autorizada y oportuna puede contener instrucciones que incumplan la política de la organización. El análisis semántico evalúa la intención y el alcance de una directiva en relación con las restricciones de conducta definidas.
No existe un único mecanismo que responda a las cinco preguntas. Para garantizar una seguridad eficaz y oportuna, es necesario aplicar controles complementarios en varias capas, de modo que cada pregunta sea abordada por al menos un punto de control. La firma criptográfica se encarga de la autenticidad y la integridad. Las políticas de control de acceso se encargan de la autorización. La aplicación de marcas de tiempo se encarga de la puntualidad. El análisis semántico se encarga de los límites de comportamiento. La arquitectura debe combinar todos estos elementos.
La importancia de una seguridad inmediata
La lista «OWASP Top 10 para aplicaciones de agentes» (2026) sitúael «secuestro de objetivos de agentes»,queestá directamente relacionado con la seguridad de las instrucciones, como el riesgo número uno. El secuestro de objetivos se produce cuando un atacante manipula las directrices de un agente para anular sus objetivos previstos, convirtiendo de hecho al agente en una herramienta para llevar a cabo acciones no autorizadas.
No se trata de un riesgo aislado. Varias de las entradas del «OWASP Top 10» están directamente relacionadas con la disciplina de seguridad en el entorno de línea de comandos:
- ASI01, Secuestro de objetivos del agente:
El principal riesgo de este tipo. Los atacantes manipulan el comportamiento del agente mediante directivas comprometidas, modificando sus objetivos y planes, y afectando a su toma de decisiones.
- ASI02, Uso indebido de herramientas:
Los agentes utilizan herramientas fuera del ámbito previsto porque no se han aplicado los límites de las directivas.
- ASI05: Código inesperado ASI05, ejecución (RCE):
Un fallo de seguridad inicial deriva en la ejecución de código cuando el código generado o activado por agentes se ejecuta sin la validación suficiente.
- ASI06, Contaminación de la memoria y el contexto:
Los atacantes contaminan el contexto a largo plazo en el que se basan las futuras solicitudes, lo que provoca una influencia persistente en el razonamiento, la planificación y el uso de herramientas a lo largo de las sesiones.
- ASI08, Fallos en cadena:
Un ataque de tipo «prompt» que tenga éxito contra un agente puede propagarse a través de agentes, herramientas, flujos de trabajo, etc., dependientes de él, lo que amplifica una vulnerabilidad de tipo «prompt» localizada hasta provocar un fallo en todo el sistema.
Cada uno de estos riesgos se debe a un fallo en la autorización de las instrucciones. Cuando las organizaciones no pueden verificar quién emitió una instrucción, si se modificó o si el emisor estaba autorizado para realizar esa solicitud, los agentes se convierten en puntos vulnerables.
Comprendercómo los ataques de inyección de comandos aprovechan estas vulnerabilidadeses fundamental para que los equipos de seguridad puedan evaluar su exposición. Igualmente importante es implementarcontramedidas prácticas contra la inyección de comandosque aborden estos riesgos a nivel arquitectónico.
Seguridad inmediata frente a la seguridad tradicional de las aplicaciones
El paralelismo entre la seguridad de las indicaciones y la seguridad de las aplicaciones tradicionales es evidente. Mientras que las aplicaciones tradicionales son programas deterministas escritos en lenguajes como Java o C++, en la era de la IA basada en agentes, una indicación para un agente es un programa no determinista escrito en lenguaje natural. Se aplican los mismos principios de seguridad; los mecanismos de aplicación deben adaptarse.
Los profesionales de la seguridad ya conocen los ámbitos que requieren protección. Prompt elabora mapas de seguridad para cada uno de ellos.
Superficies de ataque
Las aplicaciones tradicionales protegen contra la inyección SQL, el cross-site scripting y los desbordamientos de búfer. Los agentes de IA se enfrentan a la inyección de comandos, la manipulación del contexto y las violaciones de los límites de las directivas. En ambos casos, el problema fundamental es que los datos de entrada no fiables llegan al motor de ejecución sin una validación adecuada.
Identidad y acceso
La autenticación, la autorización, la gestión de sesiones y la escalada de privilegios son elementos fundamentales para ambas disciplinas. Un agente de IA que no pueda verificar la identidad del emisor de una directiva equivale a una aplicación web que acepta solicitudes sin autenticar.
Protección de datos
La validación de entradas y salidas, el acceso no autorizado a los datos y la gestión de información confidencial se aplican igualmente a los agentes que procesan instrucciones en lenguaje natural. Un agente que filtra mensajes del sistema o configuraciones de herramientas internas se enfrenta al mismo tipo de riesgo de exposición de datos que una aplicación que filtra credenciales de bases de datos.
Cadena de suministro
La confianza en las dependencias, la integridad de los complementos de terceros y la verificación de las fuentes son fundamentales en ambos ámbitos. Un agente que carga herramientas o directivas procedentes de fuentes no verificadas hereda todas las vulnerabilidades que estas fuentes conllevan.
Detección y verificabilidad
La detección de anomalías, el registro de eventos, los registros de auditoría, la transparencia y las pruebas conforman la capa de detección tanto en la seguridad tradicional como en la basada en la inteligencia artificial. Sin un registro exhaustivo de las instrucciones recibidas, las medidas adoptadas y los resultados obtenidos, la investigación de incidentes resulta imposible.
Operaciones
La respuesta ante incidentes, el control del alcance de los efectos y la capacidad de intervención humana son requisitos operativos, independientemente de si el sistema protegido es un microservicio en contenedor o un agente autónomo.
Lo que complica la seguridad de las entradas es la naturaleza misma de estas. La validación tradicional de entradas se basa en la comparación de patrones determinísticos: WAF, expresiones regulares y validación de esquemas. El lenguaje natural es intrínsecamente ambiguo. Una misma instrucción puede expresarse de innumerables maneras, y las solicitudes maliciosas se diseñan específicamente para eludir los filtros sintácticos. Esta ambigüedad implica que los controles a nivel perimetral por sí solos son insuficientes. La seguridad de las solicitudes requiere arquitecturas de defensa en profundidad que combinen controles criptográficos, basados en políticas y semánticos.
El modelo de seguridad por capas para las indicaciones de IA
Una seguridad eficaz y rápida no es un único producto o técnica. Se trata de un modelo arquitectónico compuesto por cinco capas diferenciadas, cada una de las cuales refuerza a las demás.
Capa 1: Base de confianza criptográfica
La capa base permite la verificación de firmas y la aplicación de marcas de tiempo. Cada directiva está firmada criptográficamente por su emisor y es verificada por el agente receptor antes de su ejecución. La aplicación de marcas de tiempo evita los ataques de repetición al vincular cada directiva a un intervalo de validez específico.
Esta capa no es una opción más entre otras. Es la base que hace que todas las capas superiores sean fiables. Consideremos la diferencia: el análisis semántico de una directiva sin firmar ofrece conclusiones sobre un contenido de procedencia desconocida. El análisis puede ser preciso, pero la organización no tiene motivos para confiar en el origen de la directiva. El análisis semántico de una directiva firmada permite interpretar sus conclusiones con confianza, ya que la autoría y la integridad de la directiva ya están demostradas.
Nivel 2: Aplicación del ámbito de autorización
Una vez establecida la confianza criptográfica, la capa de autorización impone límites basados en roles sobre lo que cada emisor verificado puede ordenar a un agente que haga. Una directiva firmada por un usuario autenticado sigue requiriendo comprobaciones de autorización. Por ejemplo, a un ingeniero se le puede permitir ordenar a un agente que consulte los paneles de control, pero no que modifique la infraestructura de producción.
Capa 3: Análisis semántico
Los filtros basados en inteligencia artificial analizan el contenido y la intención de las directivas verificadas y autorizadas. Esta capa detecta patrones anómalos, incumplimientos de políticas y desviaciones de comportamiento que los controles criptográficos y de autorización no pueden detectar. Por ejemplo, una directiva que sea auténtica, no haya sido modificada y se encuentre dentro del ámbito de autorización del emisor, pero que solicite un volumen inusual de transferencias de datos a una hora inusual, puede justificar un examen más detallado.
Nivel 4: Supervisión humana
Las operaciones de alto riesgo requieren flujos de trabajo con aprobación humana. Esta capa establece umbrales basados en la gravedad de la acción, la sensibilidad de los datos o el impacto financiero. Cuando una orden supera los parámetros de riesgo definidos, la ejecución se detiene hasta que un revisor humano la apruebe explícitamente.
Capa 5: Gestión y supervisión del ciclo de vida
La capa superior aborda las necesidades operativas continuas de seguridad inmediata: gestión del ciclo de vida de los certificados, rotación de claves de firma, comprobación de revocaciones, actualizaciones de la confianza en las CA y supervisión continua. La seguridad no es una implementación puntual. Las identidades criptográficas y las relaciones de confianza que sustentan todo el modelo requieren una gestión activa a lo largo de todo su ciclo de vida.
Para obtener más información sobre cómo implementar unadefensa por capas contra la inyección de comandos, consulte la guía de implementación.
Seguridad de la ejecución en sistemas multiagente
Las arquitecturas multiagente plantean una clase específica de retos de seguridad relacionados con las instrucciones. En estos sistemas, es posible que se le envíe una instrucción a un agente, pero que sea otro agente el que, en última instancia, ejecute las instrucciones resultantes. A medida que las instrucciones pasan de un agente a otro, se puede perder el contexto que distingue las instrucciones fiables del sistema de los datos no fiables enviados por el usuario. Este es el problema del «juego del teléfono» de la IA basada en agentes.
Cuando el agente A recibe una directiva firmada y delega subtareas a los agentes B y C, dichos agentes subordinados deben verificar de forma independiente la procedencia de la directiva. Si en la comunicación entre agentes se pierden o no se transmiten las firmas criptográficas, los agentes subordinados actuarán siguiendo instrucciones de origen desconocido.
La seguridad de las arquitecturas multiagente requiere un conjunto completo de controles:
- Identidades únicas para cada agente.
Cada agente del sistema debe tener su propia identidad criptográfica, normalmente respaldada por un certificado digital. Esto permite la autenticación mutua y la responsabilidad individual de cada agente.
- Autenticación mutua entre agentes.
Antes de que un agente acepte una directiva de otro agente, ambas partes deben verificar la identidad de la otra. No se puede dar por sentada la confianza basándose únicamente en la ubicación en la red o el contexto de implementación.
- Delegación explícita de permisos.
Cuando el agente A delega una tarea al agente B, los permisos concedidos deben delimitarse explícitamente. El agente B nunca debe heredar implícitamente el conjunto completo de privilegios del agente A.
- Privilegios mínimos por agente y por tarea.
Cada agente opera con los permisos mínimosnecesarios para su función específica. Los permisos no solo se limitan al agente, sino también a la tarea concreta que se está ejecutando.
- Desinfección de todas las comunicaciones entre agentes.
Las directivas que se transmiten entre agentes deben validarse en cada límite. La concatenación de entradas no fiables (ya sean generadas por un usuario o por otro agente) con instrucciones del sistema a través de los límites entre agentes puede tener consecuencias devastadoras en las fases posteriores.
- Registro por agente y registros de auditoría trazables.
Cada directiva recibida, cada acción realizada y cada resultado generado por cada agente se registra de forma independiente. Los registros de auditoría deben permitir reconstruir la cadena completa de directivas, desde su origen hasta su ejecución final.
- Contención del alcance del impacto.
Los controles arquitectónicos limitan el impacto de un agente comprometido. Si el agente C es secuestrado, el daño que puede causar queda limitado por sus permisos, las herramientas a las que tiene acceso y su alcance en la red.
- Detección de anomalías e interruptores de emergencia.
La supervisión automatizada detecta desviaciones en el comportamiento en tiempo real. Los interruptores de emergencia permiten a los operadores detener agentes individuales o cadenas completas de agentes sin tener que esperar a que finalice la ejecución en curso.
Nuevas normas y seguridad inmediata
La comunidad de seguridad está formalizando la seguridad de los agentes de IA y las indicaciones mediante el trabajo de normalización que se lleva a cabo en el IETF.
A modo de ejemplo, un borrador sobrela autenticación y autorización de agentes de IA(draft-klrc-aiagent-auth) se centra en definir un modelo sobre cómo se identifican, autentican y autorizan los agentes de IA al interactuar con sistemas y servicios. El borrador describe a los agentes como cargas de trabajo que requieren una gestión estructurada de la identidad, incluyendo identificadores, credenciales y mecanismos de certificación. Considera las solicitudes como parte de interacciones autenticadas y autorizadas, en lugar de como entradas independientes. También enmarca la ejecución de las solicitudes de los agentes como dependiente del contexto de identidad verificado y de los permisos delegados.
Además, un segundo borrador sobrelos requisitos de seguridad de los agentes de IA(draft-ni-a2a-ai-agent-security-requirements) adopta una visión más amplia de los sistemas de agentes, organizando las consideraciones de seguridad a lo largo de las distintas etapas del ciclo de vida de la interacción de los agentes. Este borrador sitúa las indicaciones dentro de un ciclo de vida de interacción más amplio, en el que las solicitudes son mediadas por componentes de infraestructura como un agente maestro (que se define en el mismo documento). Por lo tanto, las entradas de las indicaciones están implícitamente sujetas a validación, autenticación y aplicación de políticas en múltiples etapas, incluidas las decisiones de comunicación entre dominios y de control de acceso. Estos y otros esfuerzos futuros tienen como objetivo proporcionar directrices para la seguridad de las indicaciones y, en última instancia, para el uso seguro de la IA. Las organizaciones que inviertan hoy en infraestructura criptográfica para la seguridad de las indicaciones estarán en condiciones de adoptar estas normas a medida que maduren, en lugar de tener que adaptar los controles de seguridad tras la implementación.
CómoKeyfactor ayudarteKeyfactor
Keyfactor la infraestructura criptográfica necesaria para implementar una seguridad inmediata a escala empresarial. Los mismos principios de PKI y firma de código que protegen las cadenas software , las identidades de los dispositivos y la autenticación de cargas de trabajo se aplican directamente a la protección de las directivas de los agentes de IA.
SignServer ofrece una infraestructura de firma centralizada para la firma de directivas. Las organizaciones pueden firmar directivas de agentes a través de API REST, PKCS#11 o Windows KSP sin necesidad de distribuir claves privadas a agentes individuales o equipos de aplicaciones. La gestión de claves se abstrae tras un servicio centralizado, lo que reduce la complejidad operativa que supone mantener la infraestructura de firma en grandes implementaciones de agentes.
Gestión del ciclo de vida de los certificados automatiza los requisitos operativos continuos de la seguridad inmediata: renovación de certificados, comprobación de revocaciones y actualizaciones de confianza de las CA. A medida que se amplía el despliegue de agentes, la gestión manual de certificados se vuelve insostenible. La gestión automatizada del ciclo de vida garantiza que las relaciones de confianza criptográfica se mantengan al día sin necesidad de una intervención manual constante.
EJBCA proporciona una infraestructura de autoridad de certificación empresarial para la emisión y gestión de los certificados digitales que establecen las identidades de los agentes y las credenciales de firma. Cada agente recibe una identidad única respaldada por un certificado, lo que permite la autenticación mutua y la responsabilidad individual de cada agente que requieren las arquitecturas multiagente.
La aplicación de políticastraslada las decisiones de autorización de los agentes distribuidos a un servicio de firma centralizado. En lugar de confiar en que cada agente aplique de forma independiente las políticas de autorización, las organizaciones definen y aplican las políticas en el momento de la firma de las directivas. Solo las directivas que superan las comprobaciones de políticas reciben una firma válida.
La protección de claves respaldada por HSMgarantiza que las claves de firma se almacenen en módulos hardware , lo que proporciona un almacenamiento de claves a prueba de manipulaciones que cumple con los requisitos de cumplimiento normativo de los sectores regulados.
En conjunto, estas capacidades hacen que la seguridad de la IA pase del filtrado heurístico a la garantía criptográfica, lo que permite establecer una seguridad inmediata sobre los mismos cimientos probados que protegen las infraestructuras críticas en todo el mundo.
Keyfactor los equipos de seguridad visibilidad
y control sobre las identidades
y la criptografía que protegen cada
interacción digital, para que su negocio
siga funcionando sin interrupciones.
¿Tienes preguntas sobre la seguridad de Prompt?
Tenemos las respuestas.
La prevención de la inyección de comandos es uno de los componentes de la disciplina más amplia de la seguridad de las respuestas. La seguridad de las respuestas abarca el conjunto completo de controles necesarios para garantizar la autenticidad, la integridad, la autorización, la puntualidad y la seguridad semántica de las instrucciones. La prevención de la inyección de comandos se centra específicamente en detectar y bloquear entradas maliciosas que intenten anular las instrucciones previstas por un agente.
No. La seguridad de la IA es un campo más amplio que se ocupa de garantizar que los sistemas de IA se comporten de manera beneficiosa y acorde con los valores humanos. La seguridad de las instrucciones es una disciplina específica dentro de la ciberseguridad centrada en garantizar que las instrucciones dadas a los sistemas de IA sean fiables. Un sistema puede ser seguro en su diseño, pero seguir siendo vulnerable si sus instrucciones pueden ser manipuladas.
La lista de permitidos requiere la aprobación previa de cada directiva autorizada, lo cual resulta poco práctico en entornos dinámicos en los que las instrucciones legítimas varían considerablemente. La firma inmediata verifica que una directiva ha sido emitida por una fuente autorizada y que no ha sido modificada, sin necesidad de que el contenido exacto se haya registrado previamente. Este enfoque se adapta a entornos en los que el contenido de las directivas es intrínsecamente variable.
La PKI proporciona la infraestructura de confianza necesaria para garantizar una seguridad inmediata. Las autoridades de certificación emiten certificados digitales que verifican la identidad de los agentes. Los certificados de firma permiten la firma y la verificación de directivas. La gestión del ciclo de vida de los certificados garantiza que estas relaciones de confianza sigan siendo válidas a lo largo del tiempo. Sin la PKI, no existe ningún mecanismo escalable para establecer la confianza criptográfica entre los emisores de directivas y los agentes.
No. El análisis semántico evalúa el contenido y la intención de una directiva, pero no puede verificar quién la emitió ni si se modificó durante su transmisión. El análisis semántico de una directiva sin firmar ofrece conclusiones sobre un contenido de procedencia desconocida. Los controles criptográficos deben garantizar primero la autenticidad y la integridad; a continuación, el análisis semántico se aplica al contenido verificado.
Empiece por hacer un inventario de sus implementaciones actuales de IA agentiva y por trazar los flujos de directivas entre usuarios, sistemas y agentes. Identifique qué directivas entrañan un mayor riesgo en caso de ser comprometidas. Implemente primero la firma criptográfica para esas rutas de directivas de alto riesgo y, a continuación, incorpore controles de autorización, análisis semántico y supervisión humana. La infraestructura de PKI y firmaKeyfactorpuede servir como base criptográfica para este proceso.