Um Prompt-Injection-Angriffe zu verhindern, müssen agentische Prompts als ausführbare Anweisungen und nicht als einfache Texteingaben behandelt werden. In agentischen KI-Systemen ist ein Prompt nicht mehr nur eine einfache Dialogzeile, sondern eincommand Ausführung einer Aufgabe – im Grunde ein nicht-deterministisches Programm in natürlicher Sprache. Genauso wie Unternehmen sicherstellen, dass sich auf ihren Systemen nur autorisierte Unternehmensanwendungen befinden, müssen sie nun Rahmenbedingungen schaffen, die genehmigte, autorisierte Anweisungen von nicht genehmigten unterscheiden und nicht autorisierte Anweisungen herausfiltern, bevor sie einen Agenten erreichen.
Die Bedrohungslage bei der Prompt-Injection
Agentische KI-Systeme sind zahlreichen Bedrohungsvektoren ausgesetzt, die bösartige Befehle einschleusen, verändern oder verbreiten können.
In Daten, die ein Agent verarbeitet, können schädliche Inhalte eingebettet sein, die die vorgesehenen Anweisungen überschreiben oder verändern. Dieses Risiko verstärkt sich in Multi-Agenten-Systemen, in denen ein „Stille-Post“-Effekt auftreten kann: Man gibt zwar einem Agenten eine Anweisung, doch letztendlich führt ein anderer Agent die daraus resultierenden Anweisungen aus. Während Anweisungen zwischen den Agenten weitergereicht werden, kann der Kontext verloren gehen, der vertrauenswürdige Systemanweisungen von nicht vertrauenswürdigen, vom Benutzer übermittelten Daten unterscheidet.
Zu den häufigsten Angriffswegen gehören:
Man-in-the-Middle-Angriffe: Abfangen und Verändern von Anweisungen, während diese über Netzwerke zwischen Ursprungssystemen und der Laufzeitumgebung des Agenten übertragen werden. Ohne Integritätskontrollen können Anweisungen während der Übertragung unbemerkt verändert werden.
Replay-Angriffe: Erneute Übermittlung zuvor autorisierter Anweisungen, um eine unbefugte wiederholte Ausführung auszulösen. Eine signierte Anweisung, die unbegrenzt gültig bleibt, kann von einem Angreifer, der die Autorisierungsartefakte erlangt, abgefangen und wiederholt werden.
Bedrohungen durch Insider: Autorisierte Benutzer, die Anweisungen außerhalb ihres genehmigten Zuständigkeitsbereichs erteilen und ihren legitimen Zugriff ausnutzen, um unbefugte Handlungen auszuführen.
Kompromittierte vorgelagerte Systeme: Legitime Integrationspunkte, die kompromittiert wurden und nun unter dem Deckmantel autorisierter Quellen bösartige Anweisungen ausgeben.
Social Engineering: Manipulation von Mitarbeitern, um unbefugte Anweisungen zu genehmigen oder zu erteilen, wobei technische Kontrollen durch menschliche Schwachstellen umgangen werden.
Die Analyse der Bedrohungslage macht eine entscheidende Tatsache deutlich: Prompt-Injection ist kein einzelner Fehler, sondern ein Zusammenbruch der Vertrauensgrenzen. Um dies zu verhindern, müssen vor Beginn der Ausführung durchsetzbare Kontrollen hinsichtlich der Herkunft, Integrität und Autorisierung von Befehlen eingerichtet werden. Die folgenden Grundsätze bilden einen praktischen Rahmen zur Minderung des Risikos von Prompt-Injection in agentenbasierten KI-Systemen.
1. Unterscheiden Sie zwischen vertrauenswürdigen und nicht vertrauenswürdigen Eingaben
Das erste Grundprinzip zur Abwehr von Prompt-Injection-Angriffen besteht darin, eine klare Trennung zwischen vertrauenswürdigen Systembefehlen und nicht vertrauenswürdigen, vom Benutzer bereitgestellten Inhalten aufrechtzuerhalten. In agentenbasierten Systemen muss diese Trennung über die gesamte Verarbeitungskette hinweg gewahrt bleiben.
Organisationen müssen Systemanweisungen, die das Kernverhalten, die Fähigkeiten und die Einschränkungen des Agenten definieren, von benutzerbereitgestellten Inhalten trennen, die zu verarbeitende Daten oder auszuführende Aufgaben darstellen. Diese architektonische Trennung verhindert, dass Benutzereingaben als Befehle auf Systemebene interpretiert werden.
Durch die Kennzeichnung Durch die explizite Kennzeichnung von benutzergenerierten Inhalten wird sichergestellt, dass nachgelagerte Systeme und Agenten erkennen, welche Teile einer Anweisung aus vertrauenswürdigen Quellen stammen und welche potenziell nicht vertrauenswürdige Eingaben darstellen. In Multi-Agenten-Architekturen muss diese Kennzeichnung über Agentengrenzen hinweg erhalten bleiben, um einen Kontextverlust zu verhindern.
Es ist von entscheidender Bedeutung, die Verkettung von Rohdaten zu vermeiden. Wenn Systemaufforderungen und Benutzereingaben einfach zu einem einzigen Textstrom verkettet werden, wird die Grenze zwischen vertrauenswürdigen und nicht vertrauenswürdigen Inhalten unklar. Angreifer können Eingaben erstellen, die diese Unklarheit ausnutzen, und Anweisungen einschleusen, die der Agent als legitime Systembefehle interpretiert.
2. Implementierung der kryptografischen Signatur bei Eingabeaufforderungen
Während viele Unternehmen „Prompt Security“ zunächst als ein System betrachten, das Whitelist-basierte Eingabeaufforderungen oder vorab genehmigte Befehlsvorlagen erfordert, erweist sich dieser Ansatz im großen Maßstab als grundlegend unflexibel. Mit zunehmender Vielfalt der Anwendungsfälle werden Vorlagenregister unüberschaubar. Neue legitime Anfragen werden standardmäßig blockiert, was zu operativen Reibungsverlusten führt. Dies ist besonders problematisch bei Eingabeaufforderungen, die möglicherweise nur einmal ausgeführt werden, wie beispielsweise bei der Umsetzung eines bestimmten Backlog-Elements, wo der Verwaltungsaufwand für die Whitelist den Sicherheitsnutzen bei weitem übersteigt.
Die kryptografische Signatur bietet eine skalierbarere und robustere Alternative. Anstatt Verzeichnisse mit genehmigten Eingabeaufforderungsvorlagen zu führen, signieren Unternehmen autorisierte Anweisungen mithilfe von Signaturlösungen für Unternehmen mit kryptografischen Schlüsseln. Die Signatur und das zugehörige Zertifikat werden mit der Anweisung gebündelt und vor der Ausführung überprüft.
Dieser Ansatz entspricht dem bewährten Verfahren, das bei der herkömmlichen Signierung software zum Einsatz kommt. Genauso wie Unternehmen kompilierte ausführbare Dateien signieren, um sicherzustellen, dass in ihren Umgebungen nur autorisierte software , können sie auch Agent-Anweisungen signieren, um sicherzustellen, dass nur autorisierte Befehle ausgeführt werden. Das Grundprinzip bleibt identisch; der einzige Unterschied besteht darin, dass herkömmliche Anwendungen deterministische Programme sind, die in Sprachen wie Java oder C# geschrieben sind, während Agentenanweisungen nicht-deterministische Programme sind, die in natürlicher Sprache verfasst sind. Wenn es darum geht, sicherzustellen, dass Ihre Systeme keine unbefugten Aktivitäten ausführen, ist dieser Unterschied im ursprünglichen Quellformat irrelevant.
Der Unterzeichnungs- und Überprüfungsprozess
Der kryptografische Prozess der sofortigen Signatur umfasst mehrere wichtige Schritte:
- Erstellung einer Anweisung: Eine autorisierte Partei erstellt eine Sofortanweisung, die dem Agenten Anweisungen erteilt
- Signieren: Die autorisierte Partei signiert mithilfe eines Signaturdienstes für Unternehmen wieSignServer, der eine kryptografische Signatur generiert
- Zertifikatsbündelung: Die Zertifikatskette wird extrahiert und mit der Direktive und der Signatur gebündelt
- Verteilung: Diese drei Artefakte – die Eingabeaufforderung, die Signatur und die Zertifikatskette – werden gemeinsam an die Laufzeitumgebung des Agenten verteilt
- Überprüfung: Bevor die Anweisung an den KI-Agenten weitergeleitet wird, wird die Signatur anhand des Zertifikats überprüft, um sowohl die Echtheit als auch die Integrität zu bestätigen
Diese Überprüfung kann beim Start des Agenten-Containers erfolgen, noch bevor die Anweisung den KI-Agenten selbst erreicht. Jede Änderung an der signierten Anweisung – sei es durch einen kompromittierten Vermittler, eine über die Eingabeaufforderung eingeschleuste Nutzlast oder einen Übertragungsfehler – macht die Signatur ungültig und verhindert die Ausführung.
Warum kryptografische Signaturen notwendig sind
Unter den verfügbaren Ansätzen zur direktiven Autorisierung bietet die kryptografische Signatur einzigartige Eigenschaften, die mit anderen Mitteln nicht erreicht werden können:
Nicht-abstreitbare Authentizität: Eine gültige Signatur stellt den mathematischen Beweis dar, dass die Anweisung von einer Instanz ausgegeben wurde, die den entsprechenden privaten Schlüssel kontrolliert. Kein anderer Mechanismus bietet eine gleichwertige Sicherheit. Whitelisting bestätigt, dass eine Anweisung einem genehmigten Muster entspricht, kann jedoch die Herkunft nicht nachweisen. Autorisierungscodes beweisen, dass ein Token ausgegeben wurde, können jedoch gestohlen oder missbraucht werden. KI-Gatekeeper treffen probabilistische Entscheidungen, die nicht unabhängig überprüft werden können.
Manipulationssicherheit: Jede Änderung an einer signierten Anweisung macht die Signatur ungültig. Diese Eigenschaft bleibt erhalten, unabhängig davon, wie viele Systeme die Anweisung zwischen Signatur und Überprüfung durchläuft. Ob durch eine kompromittierte Orchestrierungsschicht, ein Container-Register oder eine Volume-Einbindung – Manipulationen sind sofort erkennbar.
Entkoppelte Verifizierung: Die Signaturüberprüfung erfordert lediglich den öffentlichen Schlüssel und kann vollständig innerhalb der Vertrauensgrenze des Agenten durchgeführt werden. Im Gegensatz zur Token-Validierung ist kein Laufzeitaufruf eines externen Dienstes erforderlich, wodurch Abhängigkeiten hinsichtlich der Verfügbarkeit vermieden werden. Ihre lokale, deterministische Natur ermöglicht eine idempotente (d. h. wiederholbare) Überprüfung über mehrere Agenten hinweg – eine entscheidende Eigenschaft in Multi-Agenten-Systemen.
Vollständigkeit der Protokollierung: Signierte Richtlinien können zusammen mit ihren Signaturen protokolliert werden, wodurch nachträglich überprüft werden kann, ob die protokollierten Richtlinien authentisch und unverändert sind. Dies unterstützt Compliance, forensische Untersuchungen und die Streitbeilegung auf eine Weise, wie es andere Mechanismen nicht können.
Volle Kontrolle über die Vertrauensbeziehungen: Indem die Organisation ihre eigene vertrauenswürdige Unternehmens-Root-Zertifizierungsstelle als einzige PKI festlegt, von der aus eine sofortige Signatur autorisiert werden kann, behalten Informationssicherheitsteams die vollständige Kontrolle über Vertrauensbeziehungen und die Zugriffskontrolle auf die Signaturinfrastruktur.
3. Überprüfung der Zeitstempel durchsetzen
Zwar bietet die kryptografische Signatur starke Garantien für Authentizität und Integrität, doch bleiben signierte Richtlinien ohne zusätzliche Kontrollen auf unbestimmte Zeit gültig. Dies schafft eine Anfälligkeit für Replay-Angriffe: Wenn ein Angreifer alle für die Überprüfung der Autorisierung einer Richtlinie erforderlichen Artefakte in seinen Besitz bringt, kann er diese Richtlinie wiederholt einreichen, und die Signaturprüfung wird weiterhin erfolgreich sein.
Die Zeitstempel-Validierung mindert diese Anfälligkeit für Replay-Angriffe, indem sie die Aktualität der Anweisungen sicherstellt. Der Signaturdienst fügt der signierten Nutzlast einen vertrauenswürdigen Zeitstempel hinzu. Der prüfende Agent lehnt daraufhin Signaturen ab, die älter sind als ein für den jeweiligen Anwendungsfall festgelegter Schwellenwert.
Das zulässige Alter der Signatur hängt vom Bereitstellungsmodell ab:
- Interaktive Agenten: Enge Aktualisierungsfenster (Sekunden bis Minuten) sind angemessen, wenn Anweisungen unmittelbar vor der Ausführung signiert werden
- Batch- oder geplante Agenten: Längere Zeitfenster können erforderlich sein, wenn Anweisungen im Voraus unterzeichnet und für die spätere Ausführung in die Warteschlange gestellt werden
- Szenarien zur Notfallwiederherstellung: Unternehmen müssen prüfen, ob signierte Richtlinien auch bei Ausfällen des Signaturdienstes gültig bleiben sollen, und die Zeitfenster entsprechend festlegen
Bei Anweisungen, von denen nicht erwartet wird, dass sie wiederholt ausgeführt werden, wie beispielsweise die Registrierung eines Zertifikats oder die Umsetzung eines bestimmten Rückstandselements, ist die Durchsetzung von Zeitstempeln unerlässlich. Da von Agenten in der Regel erwartet wird, dass sie Aufgaben sehr schnell bearbeiten, sind kurze Gültigkeitsfristen sinnvoll und effektiv.
4. Zertifikatsbasierte Autorisierung anwenden
Die Public-Key-Infrastruktur bietet mehr als nur kryptografische Verifizierung; sie schafft einen umfassenden Rahmen für Identität, Integrität und Nachvollziehbarkeit in agentenbasierten KI-Systemen.
Identität schaffen
An Signaturschlüssel gebundene Zertifikate gewährleisten eine überprüfbare Identität der Aussteller von Richtlinien. Im Gegensatz zu einfachen Authentifizierungsdaten, die weitergegeben oder gestohlen werden können, bieten private Schlüssel, die durch die Signaturinfrastruktur des Unternehmens geschützt sind, eine hohe Identitätssicherheit. Die Zertifikatskette bestätigt, dass das Signaturzertifikat von einer vertrauenswürdigen Zertifizierungsstelle ausgestellt wurde, die der Kontrolle der Organisation untersteht.
Gewährleistung der Integrität
Die kryptografische Verknüpfung zwischen dem Inhalt der Anweisung und der Signatur stellt sicher, dass jede noch so geringfügige Änderung erkennbar ist – eine Garantie, die von der Stärke des zugrunde liegenden Algorithmus abhängt. Und um sich vor einem quantenfähigen Angreifer zu schützen, muss Post-Quanten-Kryptografie eingesetzt werden. Dieser Integritätsschutz geht über die einfache Manipulationserkennung hinaus und umfasst auch Übertragungsfehler, Speicherbeschädigungen und andere unbeabsichtigte Änderungen.
Gewährleistung der Nachvollziehbarkeit
Zertifikatsbasierte Signaturlösungen für Unternehmen erstellen umfassende Prüfpfade. Jeder Signaturvorgang kann mit allen relevanten Informationen protokolliert werden: wer welche Richtlinie signiert hat, wann die Signatur erfolgte und welches Zertifikat verwendet wurde. Diese Protokolle liefern unwiderrufliche Nachweise für Compliance, forensische Untersuchungen und die Beilegung von Streitigkeiten.
Unternehmen müssen Vorkehrungen für den Ablauf von Zertifikaten, die Überprüfung auf widerrufene Zertifikate und die Aktualisierung der CA-Vertrauensliste treffen. Bei containerisierten Workloads kann dies einen Netzwerkzugang zu CRL-Verteilungspunkten oder OCSP-Respondern erfordern oder die Einbindung von Informationen zu widerrufenen Zertifikaten in das Laufzeitpaket.
Detaillierte Zugriffskontrolle
Richtlinienbasierte Signaturdienste können Autorisierungsregeln bereits zum Zeitpunkt der Signatur durchsetzen. Durch die Verwendung unterschiedlicher Signaturzertifikate lassen sich verschiedene Anwendungsfälle voneinander unterscheiden, sodass jeder Agent Zugriff auf die entsprechenden Systeme erhält, während gleichzeitig sichergestellt wird, dass ein autorisierter Genehmiger seinen Genehmigungsbereich nicht überschreiten kann.
Dadurch wird die Durchsetzung der Autorisierung vom Agenten, der lediglich Signaturen überprüfen kann, auf den Signaturdienst verlagert, der die Ausstellung von Signaturen steuert. Diese architektonische Umstellung ist wünschenswert, da sie die Durchsetzung der Richtlinien an einem einzigen, gut kontrollierten Punkt zentralisiert, anstatt sie auf potenziell zahlreiche Agent-Installationen zu verteilen.
5. Das mehrschichtige Sicherheitsmodell
Die kryptografische Signatur von Befehlen für agentische KI bietet zwar erhebliche Vorteile, stellt jedoch für sich genommen keine vollständige Lösung dar. Für sich allein genommen weist sie entscheidende Einschränkungen auf, die durch ergänzende Kontrollmaßnahmen behoben werden müssen.
Eine Signatur belegt, dass eine Anweisung von einer autorisierten Stelle erteilt wurde; sie belegt jedoch nicht, dass die Anweisung sinnvoll, richtlinienkonform oder sicher ist. Ein kompromittierter oder böswilliger autorisierter Unterzeichner kann schädliche Anweisungen erteilen, die die Signaturprüfung bestehen. Ein KI-Agent handelt außerhalb vorprogrammierter Routinen und interpretiert eine Anweisung möglicherweise nicht im Sinne der Erwartungen des Unterzeichners.
Diese Einschränkungen sind keine Argumente gegen die Signatur, sondern Argumente für eine mehrschichtige Sicherheit. Die kryptografische Signatur bildet die grundlegende Vertrauensschicht, auf der semantische Analysen, die Erkennung von Anomalien und die menschliche Kontrolle aufbauen können.
Bewährte Architekturen integrieren komplementäre Kontrollmechanismen:
- Kryptografische Vertrauensbasis: Die Signaturprüfung mit Zeitstempel-Durchsetzung bildet die Basisebene
- Durchsetzung des Berechtigungsumfangs: Rollenbasierte Beschränkungen der Handlungsmöglichkeiten eines KI-Agenten in Unternehmenssystemen, um sicherzustellen, dass ein Genehmiger seine Befugnisse nicht überschreitet
- Ebene der semantischen Analyse: Der Guardian Agent fungiert als KI-Gatekeeper für die Anomalieerkennung, der Richtlinien anhand der Richtlinien bewertet
- Menschliche Überwachung: Genehmigungsworkflows mit menschlicher Einbindung für risikoreiche Vorgänge
- Lebenszyklusverwaltung und -überwachung: Vollständiges Lebenszyklusmanagement von Agenten-Identitätszertifikaten, Zertifikaten für die sofortige Signierung und Identitätszertifikaten für Genehmiger
In diesem Modell ist die kryptografische Signatur nicht nur eine Option unter vielen, sondern die Grundlage, die die darüber liegenden Schichten vertrauenswürdig macht. Die semantische Analyse einer nicht signierten Direktive liefert Schlussfolgerungen über Inhalte unbekannter Herkunft, wodurch diese nicht umsetzbar sind. Die semantische Analyse einer signierten Direktive ermöglicht eine zuverlässige Interpretation ihrer Schlussfolgerungen, da bekannt ist, dass die Authentizität des Inhalts kryptografisch überprüft wurde.
Für Organisationen, die neben der kryptografischen Signatur auch KI-basierte semantische Gatekeeper einsetzen, sollte der Ablauf nach dem Prinzip „zuerst signieren, dann analysieren“ erfolgen: Signieren Sie die Anweisungen am Ursprungsort, überprüfen Sie die Signatur am Eingang des Gatekeepers, führen Sie eine semantische Analyse der verifizierten Inhalte durch und leiten Sie diese erst dann an den Agenten weiter. Dadurch wird sichergestellt, dass selbst der Gatekeeper nur Inhalte verarbeitet, deren Authentizität festgestellt wurde, wodurch das Risiko von Prompt-Injection-Angriffen auf den semantischen Gatekeeper gemindert wird.
6. Referenzarchitektur: Containerisierte Agent-Workloads
Container bieten ein ideales Bereitstellungsmodell für agentenbasierte KI-Systeme. Die Kurzlebigkeit containerisierter Workloads, die zur Ausführung einer bestimmten Aufgabe gestartet und anschließend beendet werden, passt gut zu den Best Practices für die Bereitstellung von Agenten. Dieses Muster, bei dem Agenten aktiv werden, bestimmte Aufgaben erledigen und dann wieder verschwinden, verhindert die Leistungsminderung, die bei lang andauernden Agentensitzungen auftritt.
In einer containerbasierten Architektur für die sofortige Signierung:
- Die Richtlinie wirdSignServer einem autorisierten Unterzeichner mitSignServer unterzeichnet, wodurch ein Prüfpfad erstellt wird
- Die Steuerungsebene verwendet die separate Signatur und die Zertifikatskette, um die Anweisung zu überprüfen, bevor die Artefakte in den Agent-Container eingebunden werden
- Der Agent-Container überprüft die Signatur zudem beim Start, bevor er die Anweisung an den KI-Agenten weiterleitet, und überprüft dabei optional die Aktualität des Zeitstempels
- Nur Anweisungen, die die Signaturprüfung bestehen, werden an den KI-Agenten weitergeleitet, damit dieser entsprechend handelt
Diese Architektur erfüllt mehrere wichtige Sicherheitsanforderungen:
Authentizität: Der Agent führt die Anweisung nur aus, wenn sie eine gültige Signatur aus einer Zertifikatskette enthält, die zu einer vertrauenswürdigen Zertifizierungsstelle führt.
Integrität: Jede Änderung an der Richtlinie nach der Signierung führt zu einem Fehler bei der Signaturprüfung, unabhängig davon, ob die Änderung in der Orchestrierungsschicht, im Container-Register oder beim Einbinden des Volumes erfolgt.
Autorisierung an der Quelle: Die Policy-Engine des Signaturdienstes legt fest, welche Parteien Anweisungen autorisieren oder erteilen dürfen, und verhindert so, dass sowohl nicht autorisierte als auch autorisierte Quellen ihren Zuständigkeitsbereich überschreiten.
Verhinderung von Wiederholungen: Die Zeitstempelvalidierung lehnt Anweisungen ab, die außerhalb des zulässigen Gültigkeitszeitraums signiert wurden, und verhindert so die Wiederverwendung erfasster signierter Anweisungen.
Prüfpfad: Signierte Anweisungen mit gültigen Signaturen können protokolliert und später überprüft werden, wodurch ein nicht widerlegbarer Nachweis darüber erbracht wird, welche Anweisungen autorisiert und ausgeführt wurden.
Die RolleKeyfactorbei der Abwehr von Prompt-Injection-Angriffen
Keyfactor PKI- und Code-Signing-Modelle für Unternehmen auf KI-Systeme und stellt Organisationen die Infrastruktur zur Verfügung, die für die groß angelegte Implementierung kryptografischer Sofort-Signaturen erforderlich ist. Die gleichen Prinzipien, die software Jahrzehnten traditionelle software schützen, gelten nun auch für die Sicherung von Anweisungen für agentische KI.
SignServer bietet eine zentralisierte Signaturinfrastruktur, die die Komplexität der Schlüsselverwaltung von den Direktivenquellen abstrahiert. Systeme, die Direktiven signieren müssen, rufen eine Signatur-API auf; sie besitzen oder verwalten niemals direkt private Schlüssel. Die Schlüsselgenerierung, die Speicherung einschließlich HSM-Unterstützung, die Rotation und die Sperrung werden vom Signaturdienst gemäß den Richtlinien der Organisation abgewickelt.
Diese Abstraktion wird über mehrere Integrationsschnittstellen bereitgestellt:
- REST-APIs für Cloud-native Anwendungen
- PKCS#11 für Systeme, die standardisierte Schnittstellen für kryptografische Anbieter erfordern
- Windows KSP für die Integration in das Microsoft-Ökosystem
Direkte Quellen lassen sich über eine einzige API integrieren; der Signaturdienst übernimmt hinter den Kulissen alle Vorgänge im Zusammenhang mit dem Schlüssellebenszyklus.
Bei containerisierten Agent-WorkloadsKeyfactor die Signaturüberprüfung sowohl vor dem Start des Containers als auch innerhalb von Kubernetes-Containern, bevor Anweisungen den KI-Agenten erreichen. Die Überprüfung vor dem Start stellt sicher, dass keine Rechenressourcen für die Verarbeitung einer nicht autorisierten Eingabeaufforderung verbraucht werden. Die Überprüfung innerhalb des Containers bietet Schutz vor Umgehungsversuchen und stellt sicher, dass eine Anweisung, selbst wenn sie die vorgelagerten Kontrollen irgendwie umgeht, den Agenten zur Laufzeit nicht kapern kann. Da das Container-Image selbst ebenfalls signiert werden kann, scheitern Versuche, die Überprüfung innerhalb des Containers zu deaktivieren oder zu umgehen, was die Widerstandsfähigkeit gegen Manipulationen erhöht.
Funktionen zur Durchsetzung von Zeitstempeln gewährleisten die Aktualität von Anweisungen und wirken Wiederholungsangriffen wirksam entgegen. Unternehmen können je nach ihrem Bereitstellungsmodell geeignete Aktualitätsfenster konfigurieren: kurze Zeitfenster für interaktive Agenten und längere Zeitfenster für Batch-Vorgänge.
Der Schlüsselschutz auf Unternehmensniveau durch HSM-Unterstützung gewährleistet, dass Signaturschlüssel auch im Falle einer Systemkompromittierung sicher bleiben. Die vonSignServer bereitgestellte zentralisierte Durchsetzung von RichtlinienSignServer Autorisierungsentscheidungen von verteilten Agenten auf einen einzigen, gut kontrollierten Punkt, was das Sicherheitsmanagement vereinfacht und die Angriffsfläche verringert.
Dieser Ansatz verlagert den Schwerpunkt der KI-Sicherheit von der heuristischen Filterung – bei der versucht wird, schädliche Inhalte durch Mustererkennung und probabilistische Analyse zu erkennen – hin zur kryptografischen Absicherung, die mathematisch überprüfbare Garantien für die Authentizität und Integrität von Anweisungen bietet. Das Ergebnis ist ein Sicherheitskonzept, das sich an den Umfang des Einsatzes agentenbasierter KI im Unternehmen anpasst, ohne dass jede Anweisung manuell überprüft oder unübersichtliche Whitelist-Verzeichnisse gepflegt werden müssen.
Häufig gestellte Fragen
Was ist der sicherste Weg, um eine Prompt-Injektion zu verhindern?
Es gibt keine einzelne Sicherheitsmaßnahme, die das Risiko von Prompt-Injection vollständig ausschließt. Der sicherste Ansatz basiert auf einer mehrschichtigen Verteidigung.
Die kryptografische sofortige Signierung bildet die grundlegende Vertrauensschicht und stellt sicher, dass Befehle vor ihrer Ausführung authentisch und unverändert sind. Darüber hinaus können Unternehmen zusätzliche Sicherheitsmaßnahmen einsetzen, wie beispielsweise rollenbasierte Zugriffsbeschränkungen und Container-Isolation.
Eine zunehmend verbreitete bewährte Vorgehensweise ist der Einsatz eines KI-„Wächter-Agenten“ – eines separaten KI-Systems, das keinen Zugriff auf Unternehmenssysteme hat und eine Anweisung vor ihrer Ausführung überprüft. Im Grunde fragt der ausführungsfähige Agent: „Sieht das nach einem Versuch der Prompt-Injektion aus?“ Dieser zweite Agent fungiert als „semantischer Gatekeeper“ und führt eine interpretative Überprüfung durch, ohne zusätzliche Systemberechtigungen zu gewähren.
Die Signatur schafft Vertrauen. Die semantische Überprüfung bewertet die Absicht. Zusammen bilden sie ein stärkeres Präventionsmodell.
Sind Whitelist-Eingabeaufforderungen skalierbar?
Nicht für dynamische Agenten-Workloads.
Whitelist-Ansätze mögen sich für sich wiederholende, klar abgegrenzte Vorgänge eignen, lassen sich jedoch nicht auf einmalige oder sehr unterschiedliche Aufgaben übertragen. Die Pflege von Vorlagenregistern wird im Vergleich zur kryptografischen Autorisierung zu einer betrieblichen Belastung und ist anfällig für Fehler.
Wie verhindert die Validierung von Zeitstempeln Replay-Angriffe?
Die Überprüfung des Zeitstempels gewährleistet die Aktualität der Direktive.
Wenn eine Anweisung signiert wird, enthält sie einen vertrauenswürdigen Zeitstempel. Bei der Überprüfung werden Signaturen, die älter sind als ein festgelegter Schwellenwert, abgelehnt. Dies verhindert, dass Angreifer erfasste Anweisungen unbegrenzt wiederholen können, und stellt sicher, dass die Autorisierung zeitlich begrenzt bleibt.
Welche Rolle spielt PKI bei der Abwehr von Prompt-Injection-Angriffen?
PKI bildet die Grundlage für die Gewährleistung von Identität und Integrität.
Zertifikate verknüpfen Signaturschlüssel mit autorisierten Stellen, Signaturen verhindern Manipulationen, und die unternehmensweite Stammvertrauensbasis stellt sicher, dass nur zugelassene Aussteller die Ausführung autorisieren können. Auf diese Weise behalten Unternehmen die volle Kontrolle über die direktiven Vertrauensbeziehungen in verteilten Agent-Umgebungen.