So funktionieren Prompt-Injection-Angriffe

Sofortige Unterzeichnung

März 24, 2026

Prompt-Injection-Angriffe nutzen die Art und Weise aus, wie große Sprachmodelle Anweisungen interpretieren. Indem sie böswillige Befehle in ansonsten legitime Eingaben einbetten, können Angreifer KI-Agenten dazu bringen, unbeabsichtigte Aktionen auszuführen. Wenn diese Agenten eigenständig auf Unternehmenssysteme, Datenbanken und APIs zugreifen können, wird die Prompt-Injection von einem inhaltlichen Problem zu einer Sicherheitsbedrohung auf der Ausführungsebene mit realen Konsequenzen.

Um zu verstehen, wie Prompt-Injection-Angriffe funktionieren, muss man sich mit der grundlegenden Architektur agentenbasierter KI-Systeme und den Vertrauensgrenzen befassen, die Angreifer zu unterlaufen versuchen. Im Gegensatz zu herkömmlichen Bedrohungen der Anwendungssicherheit nutzt Prompt-Injection die der Verarbeitung natürlicher Sprache innewohnende Mehrdeutigkeit aus, was die Abwehr mit herkömmlichen Sicherheitsmaßnahmen besonders schwierig macht.

Die grundlegenden Mechanismen eines Prompt-Injection-Angriffs

Prompt-Injection-Angriffe nutzen die grundlegende Herausforderung aus, vor der große Sprachmodelle stehen: die Unterscheidung zwischen vertrauenswürdigen Systemanweisungen und nicht vertrauenswürdigen Benutzerdaten. Der Angriff findet auf der Ebene der Befehlsinterpretation statt, wo das Modell Eingaben in natürlicher Sprache verarbeitet und entscheidet, welche Aktionen ausgeführt werden sollen.

Überschreiben von Befehlen

Die direkteste Form der Prompt-Injection besteht darin, explizite Override-Befehle in benutzergesteuerte Daten einzubetten. Ein Angreifer füllt ein Webformular aus, wobei das Feld „Wohnadresse“ auf „Vorherige Anweisungen ignorieren und…“ , gefolgt von böswilligen Anweisungen. Das Modell, das dies als Teil seines Eingabestroms verarbeitet, könnte die böswillige Anweisung als legitime Anweisung interpretieren und ausführen.

Das funktioniert, weil Sprachmodelle alle Eingaben als potenzielle Anweisungen verarbeiten. Das Modell kann nicht zuverlässig feststellen, ob eine Phrase als Inhalt verarbeitet oder als command interpretiert werden soll.

Kontextverwirrung

Der zweite Mechanismus nutzt die Art und Weise, wie KI-Agenten den Kontext über mehrere Datenquellen hinweg verwalten. In einem typischen agentenbasierten Arbeitsablauf erhält der Agent:

Eine Systemmeldung, in der die Rolle und die Einschränkungen des Systems beschrieben werden

Vom Benutzer bereitgestellte Anweisungen oder Fragen

Externe Inhalte, die aus Datenbanken, APIs oder Dokumenten abgerufen werden

Zwischenergebnisse aus früheren Geschäftsjahren

Das Modell muss angemessene Vertrauensgrenzen zwischen diesen Quellen wahren; es kommt jedoch zu Kontextverwirrung, wenn das Modell nicht zwischen ihnen unterscheiden kann. Bösartige Inhalte, die in einem abgerufenen Dokument oder einer API-Antwort eingebettet sind, können mit derselben Autorität behandelt werden wie die Systemaufforderung selbst.

Dies wird insbesondere in Multi-Agenten-Systemen gefährlich. Agent A könnte Daten abrufen, die eingeschleuste Anweisungen enthalten, diese als legitimen Inhalt verarbeiten und an Agent B weiterleiten. Während die Daten durch mehrere Agenten weitergeleitet werden, schwächt sich die Vertrauensgrenze mit jedem Schritt ab. Nach mehreren Agenten in der Kette hat das System möglicherweise den Kontext völlig aus den Augen verloren, dass ein Teil der Daten aus einer nicht vertrauenswürdigen Quelle stammt und nicht als umsetzbare Anweisungen interpretiert werden sollte.

Auslösebedingung

In agentenbasierten Systemen mit Werkzeugzugriff reichen die Folgen einer erfolgreichen Eingabe von Befehlen weit über die Erzeugung unangemessener Textantworten hinaus. Wenn ein eingegebener Befehl die Ausführung auslöst, kann der Agent:

APIs mit erweiterten Berechtigungen aufrufen

Daten in verbundenen Systemen ändern oder löschen

Auf Code-Repositorys zugreifen und Quelldateien ändern

Finanztransaktionen durchführen

Infrastruktureinstellungen neu konfigurieren

Vertrauliche Informationen abziehen

Der Auslösepunkt stellt den Moment dar, in dem eine Sicherheitslücke zu einem Sicherheitsvorfall wird. Der Agent, der nicht erkennen kann, dass er keine legitimen Anweisungen befolgt, nutzt seine ihm gewährten Berechtigungen, um Aktionen auszuführen, die den Zielen des Angreifers dienen und nicht denen des Unternehmens.

Multi-Agent-Verstärkung

In verteilten agentenbasierten Systemen vervielfachen sich die Risiken durch das Einschleusen von Befehlen aufgrund eines Phänomens, das dem Kinderspiel „Stille Post“ ähnelt: Wenn eine Nachricht durch Flüstern von Ohr zu Ohr weitergegeben wird, geht dabei zwangsläufig ein Teil der Information verloren, wodurch der ursprüngliche Inhalt verfälscht wird. Wenn mehrere Agenten zusammenarbeiten, um komplexe Aufgaben zu bewältigen, wird jeder einzelne Agent zu einem potenziellen Überträger für die Verbreitung böswilliger Anweisungen.

Wie Simon Willison in dieser Analyse der „tödlichen Dreierkombination“ , schafft die Kombination aus großen Sprachmodellen, dem Zugriff auf private Daten und der Fähigkeit, auf externe Systeme einzuwirken, eine einzigartig gefährliche Sicherheitsdynamik. Wenn Agenten sowohl Eingaben mit gemischtem Vertrauensgrad verarbeiten als auch über Ausführungsfähigkeit verfügen, verlagert sich das Risiko von fehlerhaften Ausgaben hin zu einer Gefährdung des Betriebs. In Multi-Agenten-Workflows verstärkt sich dieses Risiko, da Anweisungen zwischen Systemen übertragen werden. Ausführungsfähigkeit, verlagert sich das Risiko von fehlerhaften Ausgaben hin zu operativen Kompromittierungen. In Multi-Agenten-Workflows verstärkt sich dieses Risiko, da Anweisungen zwischen Systemen übertragen werden.

Stellen Sie sich einen Arbeitsablauf vor, bei dem Agent A mit der Analyse von Support-Tickets beauftragt ist. Er ruft den Ticketinhalt aus einer Datenbank ab, verarbeitet ihn und stellt fest, dass Agent B – der auf Datenbankoperationen spezialisiert ist – die Lösung übernehmen sollte. Agent B leitet die Ergebnisse dann zur abschließenden Überprüfung an Agent C weiter. Wenn das ursprüngliche Ticket eingebettete Anweisungen enthält, werden diese Anweisungen durch die gesamte Agentenkette weitergeleitet.

Die Verstärkung tritt auf, weil:

Vertrauensvererbung: Jeder nachfolgende Agent kann implizit den Daten vertrauen, die von vorherigen Agenten im Workflow übergeben wurden

Kontextverlust: Beim Austausch von Daten zwischen Agenten können Metadaten, die deren Herkunft und Vertrauensstufe angeben, verloren gehen

Erweiterung von Berechtigungen: Verschiedene Agenten verfügen oft über unterschiedliche Berechtigungsstufen, wodurch injizierte Befehle auf Ressourcen zugreifen können, die dem ursprünglichen Einstiegspunkt nicht zur Verfügung stehen

Verzögerte Ausführung: Schädliche Befehle können über mehrere Zwischenstationen hinweg inaktiv bleiben, bevor sie in einem Agenten ausgelöst werden, der über die für die Ausnutzung erforderlichen spezifischen Fähigkeiten verfügt

Diese Multiplikation durch zahlreiche Agenten macht die sofortige Injektion in Unternehmensumgebungen besonders heimtückisch, in denen komplexe Arbeitsabläufe zahlreiche spezialisierte Agenten umfassen, von denen jeder Zugriff auf unterschiedliche Systeme und Datenquellen hat.

Risiko von Replay-Angriffen bei signierten Eingabeaufforderungen

Selbst wenn Organisationen kryptografische Signaturen einsetzen, um die Authentizität und Integrität von Eingabeaufforderungen zu überprüfen, stellen Replay-Angriffe eine anhaltende Bedrohung dar. Wird eine signierte Eingabeaufforderung von einem Angreifer abgefangen, bleibt die Signatur auf unbestimmte Zeit gültig, sofern keine zusätzlichen Sicherheitsmaßnahmen getroffen werden.

Das Szenario eines Replay-Angriffs spielt sich wie folgt ab:

Ein berechtigter Benutzer unterzeichnet eine Aufforderung, mit der ein Agent angewiesen wird, einen sensiblen Vorgang auszuführen (z. B. „Zertifikat für System X registrieren“)

Die signierte Anweisung wird zusammen mit ihrer Signatur und der Zertifikatskette an den Agenten übermittelt

Ein Angreifer fängt das vollständig signierte Paket ab oder verschafft sich auf andere Weise eine Kopie davon

Zu einem späteren Zeitpunkt sendet der Angreifer dieselbe signierte Eingabeaufforderung erneut

Der Agent überprüft die Signatur, stellt erneut fest, dass sie gültig ist, und führt die Anweisung erneut aus

Dies ist besonders gefährlich bei einmaligen Vorgängen, die niemals wiederholt werden sollten. Im Gegensatz zu wiederkehrenden Aufgaben (wie der täglichen Priorisierung von E-Mails) können Vorgänge wie die Zertifikatsregistrierung, Datenbankänderungen oder Konfigurationsänderungen erheblichen Schaden anrichten, wenn sie mehrmals ausgeführt werden.

Die zentrale Strategie zur Risikominderung umfasst die Validierung von Zeitstempeln mit Aktualitätsschwellenwerten. Der Signaturdienst fügt der signierten Nutzlast einen vertrauenswürdigen Zeitstempel hinzu, und der verifizierende Agent lehnt Signaturen ab, die älter sind als ein für den Anwendungsfall geeigneter, konfigurierbarer Schwellenwert. Unternehmen müssen die Aktualitätsfenster entsprechend ihrem Bereitstellungsmodell anpassen:

Interaktive Agenten: Enge Aktualisierungsfenster (Sekunden bis Minuten), wenn Direktiven unmittelbar vor der Ausführung signiert werden

Batch- oder geplante Agenten: Längere Zeitfenster, wenn Anweisungen im Voraus unterzeichnet und für die spätere Ausführung in die Warteschlange gestellt werden

Risikoreiche Vorgänge: Strengere Schwellenwerte für sensible Aktionen, die bei einer Wiederholung erheblichen Schaden verursachen könnten

Dieser Ansatz stellt sicher, dass selbst wenn ein Angreifer eine signierte Eingabeaufforderung abfängt, diese nach Ablauf des Gültigkeitszeitraums unbrauchbar wird, wodurch die Angriffsfläche für Replay-Angriffe erheblich verringert wird.

Warum herkömmliche Sicherheitsmaßnahmen versagen

Unternehmen, die es gewohnt sind, sich gegen herkömmliche Bedrohungen der Anwendungssicherheit zu schützen, stellen oft fest, dass ihre bestehenden Sicherheitsmaßnahmen keinen ausreichenden Schutz vor Prompt-Injection-Angriffen bieten. Dieses Versagen ist auf grundlegende Diskrepanzen zwischen der Funktionsweise dieser Sicherheitsmaßnahmen und der Funktionsweise von Prompt-Injection-Angriffen zurückzuführen.

Webanwendungs-Firewalls

Web-Anwendungs-Firewalls (WAFs) sind besonders gut darin, Angriffe zu erkennen und abzuwehren, die vorhersehbaren Mustern folgen – wie SQL-Injection, Cross-Site-Scripting, Path-Traversal und ähnliche Exploits. Diese Angriffe beinhalten in der Regel bestimmte Zeichenfolgen, fehlerhafte Eingabestrukturen oder erkennbare Angriffssignaturen.

Die Prompt-Injection bewegt sich jedoch vollständig innerhalb der Grenzen der gültigen natürlichen Sprache. Die bösartige Nutzlast ist auf syntaktischer Ebene oft nicht von legitimen Benutzereingaben zu unterscheiden – zum Beispiel in einem Adressfeld eines Webformulars, das lautet „Siehe Datensatz 1024“, , könnte einen KI-Agenten mit erweiterten Datenbankzugriffsrechten dazu veranlassen, diesen Datensatz abzurufen und offenzulegen, selbst wenn der Benutzer nicht zur Ansicht berechtigt ist. Eine WAF, die HTTP-Anfragen analysiert, kann nicht feststellen, ob der Ausdruck „vorherige Anweisungen ignorieren“ Teil einer legitimen Anfrage zur KI-Sicherheit oder ein tatsächlicher Angriffsversuch ist. Die semantische Absicht, nicht die Syntax, bestimmt die Böswilligkeit.

Statische Regelsysteme

Statische, regelbasierte Filtersysteme stoßen auf ähnliche Grenzen. Zwar lassen sich Regeln erstellen, die bestimmte Formulierungen wie „vorherige Anweisungen ignorieren“ blockieren, doch Angreifer können solche Regeln leicht umgehen, indem sie:

Ersetzung durch ein Synonym („vorherige Anweisungen ignorieren“)

Verschleierungstechniken (Zeichensubstitution, Kodierung)

Kontextuelle Variationen, die durch unterschiedliche Formulierungen denselben semantischen Effekt erzielen

Mehrstufige Injektion, bei der der Angriff auf mehrere Eingänge verteilt wird

Die Anzahl möglicher bösartiger Eingabeaufforderungen ist praktisch unbegrenzt, was eine umfassende regelbasierte Blockierung unpraktikabel macht. Jede neue Regel, die hinzugefügt wird, um einen bestimmten Angriffsvektor abzufangen, birgt das Risiko von Fehlalarmen, die legitime Anwendungsfälle blockieren.

Vorlagen für Eingabeaufforderungen

Einige Organisationen versuchen, das Risiko von Prompt-Injektionen einzudämmen, indem sie Agenten auf vorab genehmigte Prompt-Vorlagen beschränken. Dieser Ansatz bietet zwar eine deterministische Kontrolle und eine eindeutige Umsetzung, untergräbt jedoch grundlegend den Mehrwert agentenbasierter KI.

Vorlagenbasierte Systeme eignen sich gut für häufig ausgeführte, gut bekannte Vorgänge, bei denen der Anweisungsraum von Natur aus begrenzt ist. In großem Maßstab werden sie jedoch unüberschaubar, wenn:

Die Anwendungsfälle gehen über den ursprünglichen Vorlagensatz hinaus

Neue berechtigte Anfragen werden standardmäßig blockiert, was zu betrieblichen Reibungsverlusten führt

Einmalige Vorgänge (wie die Umsetzung eines bestimmten Backlog-Elements) erfordern ständige Aktualisierungen der Vorlage

Die Parametervalidierung in Vorlagen erfordert eine sorgfältige Umsetzung, um eine Injektion über parametrisierte Felder zu verhindern

Die Vorlagen-Datenbank veraltet und lässt sich nur schwer verwalten, sodass häufige Aktualisierungen erforderlich sind. Der Online-Zugriff auf die Vorlagenliste und die Überprüfung von Eingabeaufforderungen anhand dieser Liste führen zudem zu externen Abhängigkeiten, zusätzlicher Komplexität und Verzögerungen beim Agent-Betrieb – was mehr betrieblichen Aufwand verursacht als Sicherheitsvorteile bringt.

WieKeyfactor , Prompt-Injection-Angriffe zu verhindern

Der AnsatzKeyfactorzur Abwehr von Prompt-Injection-Angriffen konzentriert sich auf die Einrichtung kryptografischer Vertrauensgrenzen, die sowohl die Authentizität als auch die Integrität von Anweisungen an KI-Agenten vor deren Ausführung überprüfen. Dies entspricht dem bewährten Sicherheitsmodell, das bei software Signierung herkömmlicher software zum Einsatz kommt, wendet es jedoch auf die besonderen Herausforderungen von Anweisungen in natürlicher Sprache in agentenbasierten KI-Systemen an.

DieKeyfactor begegnet Prompt-Injection-Angriffen durch eine mehrschichtige Architektur:

Kryptografische Signaturinfrastruktur

Keyfactor SignServer bietet zentralisierte Signaturdienste, die die Komplexität der Schlüsselverwaltung von den Anweisungsquellen abstrahieren. Unternehmen können eine sofortige Signatur implementieren, ohne private Schlüssel an einzelne Systeme oder Benutzer zu verteilen. Stattdessen:

Autorisierte Richtlinienquellen rufen eine Signatur-API auf

Private Schlüssel werden innerhalb der Signaturinfrastruktur sicher aufbewahrt und durch hardware (HSMs) geschützt

Die Generierung, Speicherung, Rotation und Sperrung von Schlüsseln werden gemäß den Richtlinien der Organisation zentral verwaltet

Zahlreiche Integrationsschnittstellen unterstützen unterschiedliche Umgebungen (REST-APIs für Cloud-native Anwendungen, PKCS#11 für standardmäßige kryptografische Schnittstellen, Windows KSP für die Integration in das Microsoft-Ökosystem)

Diese Zentralisierung gewährleistet, dass die Signaturfunktionen einer strengen Zugriffskontrolle unterliegen, während gleichzeitig die betriebliche Flexibilität gewahrt bleibt.

Signaturprüfung in der Agentenarchitektur

Für Unternehmen, die KI-Agenten einsetzen,Keyfactor die Überprüfung von Agent-Workloads vor der Inbetriebnahme, ohne dass dabei Abhängigkeiten von anderen Online-Systemen bestehen.

Der Arbeitsablauf funktioniert wie folgt:

Ein Zeichnungsberechtigter erstellt eine Anweisung und unterzeichnet sie mitSignServer, wodurch ein Prüfpfad erstellt wird

Die separate Signatur und die Zertifikatskette werden zusammen mit der Agent-Anweisung übertragen

Die Steuerungs-Ebene des Agenten überprüft die Signatur beim Start, bevor sie die Anweisung an den KI-Agenten weiterleitet

Im Rahmen des Verifizierungsprozesses wird überprüft, ob die Signatur auf eine vertrauenswürdige Zertifizierungsstelle zurückgeführt werden kann, und die Aktualität des Zeitstempels wird validiert.

Nur Anweisungen, die die Signaturprüfung bestehen, werden an den KI-Agenten weitergeleitet, damit dieser entsprechend handelt

Sollte die Überprüfung an irgendeiner Stelle fehlschlagen, erhält der Agent die Eingabeaufforderung gar nicht erst. Dadurch entsteht eine strenge Sicherheitsgrenze: Keine nicht verifizierte Anweisung kann den KI-Agenten erreichen, unabhängig davon, wie sie in das System gelangt ist. Außerdem wird verhindert, dass LLM-Token für die Analyse nicht vertrauenswürdiger oder manipulierter Eingaben verschwendet werden, wodurch sowohl unnötige Ausführungskosten als auch Sicherheitsrisiken reduziert werden.

Zertifikatsvertrauensketten und Autorisierung

DiePKI-Infr astrukturKeyfactor ermöglicht eine detaillierte Zugriffskontrolle durch zertifikatsbasierte Identitätsprüfung. Anstatt alle signierten Anweisungen gleich zu behandeln, können Unternehmen:

Stellen Sie unterschiedliche Signaturzertifikate für verschiedene Anwendungsfälle oder Berechtigungsstufen aus

Setzen Sie Richtlinienregeln zum Zeitpunkt der Signatur mithilfe der Richtlinien-EngineSignServerdurch

Stellen Sie sicher, dass autorisierte Genehmiger ihren Genehmigungsbereich nicht überschreiten können

Sicherstellung des vollständigen Lebenszyklusmanagements für Identitätszertifikate von Agenten, Signaturzertifikate und Identitätszertifikate von Genehmigern

Dadurch wird die Durchsetzung der Autorisierung vom Agenten (der lediglich Signaturen überprüfen kann) auf den Signaturdienst (der die Ausstellung von Signaturen steuert) verlagert – ein sichereres Architekturmodell.

Durchsetzung von Zeitstempeln und Verhinderung von Wiederholungen

Die ImplementierungKeyfactorunterstützt die Einbettung vertrauenswürdiger Zeitstempel in signierte Inhalte und ermöglicht so die Überprüfung der Aktualität. Der Signaturdienst bettet einen Zeitstempel in die signierte Nutzlast ein, und der Prüfagent lehnt Signaturen ab, die älter sind als ein für den jeweiligen Anwendungsfall festgelegter Schwellenwert (z. B. 60 Sekunden für risikoreiche Vorgänge, 5 Minuten für Standard-Workflows).

Dieser auf Zeitstempeln basierende Ansatz beugt Replay-Angriffen wirksam vor und gewährleistet gleichzeitig operative Flexibilität. Unternehmen können die Aktualisierungsintervalle entsprechend ihren spezifischen Bereitstellungsmodellen und ihrer Risikotoleranz anpassen.

Integration mehrschichtiger Sicherheitsmaßnahmen

Die kryptografische SignaturKeyfactorbildet die grundlegende Vertrauensschicht, auf der andere Sicherheitsmaßnahmen aufbauen. Die Architektur unterstützt die Integration mit:

Ebenen der semantischen Analyse: KI-basierte Gatekeeper, die Richtlinieninhalte auf Verstöße gegen Richtlinien überprüfen und dabei auf kryptografisch verifizierte Inhalte zugreifen

Workflows mit menschlicher Beteiligung: Genehmigungsprozesse für risikoreiche Vorgänge mit kryptografischem Autorisierungsnachweis

Durchsetzung des Berechtigungsumfangs: Rollenbasierte Einschränkungen der Handlungsmöglichkeiten von KI-Agenten in Unternehmenssystemen

Lebenszyklusverwaltung und -überwachung: Vollständige Prüfpfade für signierte Richtlinien, Zertifikatsstatus und Agent-Aktivitäten

Dieser mehrschichtige Ansatz berücksichtigt, dass kryptografische Signaturen die Identität der Quelle und die Integrität des Inhalts überprüfen, nicht jedoch die semantische Sicherheit oder die Einhaltung von Richtlinien. Durch die Kombination mehrerer sich ergänzender Kontrollmaßnahmen erreichen Unternehmen einen mehrschichtigen Schutz gegen Prompt-Injection und damit verbundene Bedrohungen.

Beispiel für eine technische Architektur

Die praktische Umsetzung der kryptografischen On-the-Fly-Signierung für KI-Agenten veranschaulicht, wie abstrakte Sicherheitsprinzipien in konkrete Systemkonzepte umgesetzt werden. Betrachten wir eine Referenzarchitektur für Agenten-Workloads – beispielsweise containerisierte Bereitstellungen, wie sie häufig in cloud-nativen agentenbasierten KI-Systemen zum Ausführen einzelner Aufgaben zum Einsatz kommen.

Der Sicherheitsablauf beginnt, wenn ein autorisierter Benutzer oder ein System eine Anweisung an einen KI-Agenten erteilen muss. Da Agenten nicht auf nicht signierte Inhalte reagieren, muss diese autorisierende Partei eine digitale Signatur einholen, bevor sie die Anweisung an den Agenten übermittelt. Dazu ruft sie zunächst die Signatur-APISignServerauf. SignServer eine kryptografische Signatur unter Verwendung eines privaten Schlüssels, der die sichere Signaturinfrastruktur niemals verlässt, wodurch sichergestellt wird, dass Ihre sensibelsten Signaturschlüssel unter strengster Kontrolle bleiben. Die Signatur wird zusammen mit dem Signaturzertifikat und dessen Kette zur vertrauenswürdigen Stamm-Zertifizierungsstelle mit der ursprünglichen Anweisung gebündelt.

Dieses Paket, das die Richtlinie, die Signatur und die Zertifikatskette enthält, wird vor dem Start des Containers im Rahmen des Identitätsnachweises des Agenten überprüft und kann zur Laufzeit innerhalb des Containers erneut überprüft werden. Bevor der Container die Richtlinie an den KI-Agenten selbst weiterleitet, wird ein Überprüfungsprozess ausgeführt. Bei dieser Überprüfung werden drei wesentliche Eigenschaften geprüft:

Gültigkeit der Signatur: Die kryptografische Signatur muss korrekt mit dem Inhalt der Richtlinie übereinstimmen und damit belegen, dass die Richtlinie seit der Signierung nicht verändert wurde.

Zertifikatsvertrauen: Das Signaturzertifikat muss auf eine vertrauenswürdige Zertifizierungsstelle verweisen, die von der Organisation kontrolliert wird, um nachzuweisen, dass die Anweisung von einer autorisierten Quelle stammt.

Aktualität des Zeitstempels: Der Zeitstempel der Signatur muss innerhalb eines akzeptablen Zeitfensters liegen, um zu belegen, dass es sich nicht um die Wiederholung einer alten Anweisung handelt.

Erst wenn alle drei Prüfungen erfolgreich sind, lässt der Container zu, dass die Anweisung den KI-Agenten erreicht. Wenn eine der Prüfungen fehlschlägt, wird der Container ohne Ausführung beendet, und der Fehler wird zur Sicherheitsüberwachung protokolliert.

Diese Architektur orientiert sich an Modellen software sichere software wie der Windows-Benutzerkontensteuerung (UAC), wendet dieselben Prinzipien jedoch auf KI-Anweisungen an. So wie die UAC fragt: „Vertraust du diesem Programm?“, bevor sie software mit erhöhten Rechten zulässt, fragt die Container-Überprüfung: „Vertraust du dieser Anweisung?“, bevor sie dem KI-Agenten erlaubt, diese auszuführen.

Die durch diese Architektur erzielten Sicherheitseigenschaften sind erheblich:

Authentizität: Der Agent führt den Befehl nur aus, wenn die Anweisung eine gültige Signatur aus einer Zertifikatskette enthält, die zu der vertrauenswürdigen Zertifizierungsstelle führt

Integrität: Jede Änderung an der Direktive nach der Signierung – sei es durch eine kompromittierte Orchestrierungsschicht, ein Container-Register oder eine Volume-Einbindung – führt zu einem Fehler bei der Signaturprüfung

Autorisierung an der Quelle: Die Policy-Engine des Signaturdienstes legt fest, welche Parteien Anweisungen erteilen dürfen, und verhindert so, dass sowohl nicht autorisierte Quellen als auch autorisierte Quellen ihren Zuständigkeitsbereich überschreiten

Verhinderung von Wiederholungen: Die Zeitstempelvalidierung lehnt Anweisungen ab, die außerhalb des zulässigen Gültigkeitszeitraums signiert wurden, und verhindert so die Wiederverwendung erfasster signierter Anweisungen

Vollständigkeit der Prüfprotokolle: Signierte Anweisungen mit gültigen Signaturen können protokolliert und später überprüft werden, wodurch ein nicht widerlegbarer Nachweis darüber erbracht wird, welche Anweisungen autorisiert und ausgeführt wurden

Dieser Ansatz schafft eine überprüfbare Vertrauenskette vom Ursprung der Anweisung bis zur Ausführung durch den Agenten und behebt damit die zentrale Schwachstelle, die Angriffe durch Befehlsinjektion ausnutzen: die Unfähigkeit, vertrauenswürdige Anweisungen von nicht vertrauenswürdigen Daten zu unterscheiden.

Häufig gestellte Fragen zur Prompt-Injektion

Kann die Eingabeaufforderung Systembefehle ausführen?

Ja, in agentenbasierten Systemen mit API- und Tool-Zugriff. Wenn ein KI-Agent mit Unternehmenssystemen, Datenbanken oder der Infrastruktur interagieren kann, kann eine erfolgreiche Prompt-Injektion dazu führen, dass er diese Funktionen auf unbeabsichtigte Weise aufruft. Die Auswirkungen hängen vollständig von den Berechtigungen des Agenten ab.

Dies unterscheidet sich von herkömmlichen Chatbots, die lediglich Text generieren. Agente-basierte Systeme führen konkrete Aktionen aus.

Ist „Prompt Injection“ dasselbe wie Jailbreak-Angriffe?

Nein. Jailbreak-Angriffe umgehen die Sicherheitsvorkehrungen eines Modells, um auf eingeschränkte Inhalte zuzugreifen.

Bei Prompt-Injection-Angriffen werden Befehle so manipuliert, dass ein KI-Agent in verbundenen Systemen unbefugte Aktionen ausführt.

Wichtig ist, dass ein System nicht jailbroken sein muss, um angreifbar zu sein. Selbst Modelle, die wie vorgesehen funktionieren, können eingeschleuste Befehle ausführen, wenn vertrauenswürdige und nicht vertrauenswürdige Eingaben kombiniert werden. Jailbreaks zielen auf Inhaltskontrollen ab. Prompt-Injection zielt auf die Ausführungslogik ab.

Werden durch die Signatur alle KI-Risiken beseitigt?

Nein, und die herkömmliche Code-Signierung auch nicht.

Eine Codesignierung garantiert nicht, dass software sicher software ; sie garantiert lediglich, dass sie authentisch und unverändert ist. Die sofortige Signierung bietet denselben Nutzen für KI-Anweisungen.

Vollkommene Sicherheit gibt es nicht. Die Frage ist, ob das Risiko sinnvoll verringert wird. Durch sofortige Signierung wird verhindert, dass unbefugte oder manipulierte Anweisungen ausgeführt werden, was die Hürde für Angreifer erheblich erhöht – insbesondere in Kombination mit einem starken Schlüsselschutz und Autorisierungskontrollen.

Autor

Ausgewählt

Ausgewählt

So funktionieren Prompt-Injection-Angriffe

Sofortige Unterzeichnung

März 24, 2026

Die grundlegenden Mechanismen eines Prompt-Injection-Angriffs

Überschreiben von Befehlen

Kontextverwirrung

Auslösebedingung

Multi-Agent-Verstärkung

Risiko von Replay-Angriffen bei signierten Eingabeaufforderungen

Warum herkömmliche Sicherheitsmaßnahmen versagen

Webanwendungs-Firewalls

Statische Regelsysteme

Vorlagen für Eingabeaufforderungen

WieKeyfactor , Prompt-Injection-Angriffe zu verhindern

Kryptografische Signaturinfrastruktur

Signaturprüfung in der Agentenarchitektur

Zertifikatsvertrauensketten und Autorisierung

Durchsetzung von Zeitstempeln und Verhinderung von Wiederholungen

Integration mehrschichtiger Sicherheitsmaßnahmen

Beispiel für eine technische Architektur

Häufig gestellte Fragen zur Prompt-Injektion

Kann die Eingabeaufforderung Systembefehle ausführen?

Ist „Prompt Injection“ dasselbe wie Jailbreak-Angriffe?

Werden durch die Signatur alle KI-Risiken beseitigt?

Die Quelle | Einblicke in die Zukunft des digitalen Vertrauens

Autor

Keyfactor Team

Postquantum-Kryptographie: Jetzt ist die Zeit, sich vorzubereiten!

Vorausschauende Planung für die Postquanten-Cybersicherheit

2024 PKI & Digitales Vertrauen Bericht

Der Stand der Quantenbereitschaften bei der Integration 2024

Verwandte Beiträge

Code-Signierung

Für die Code-Signierung stehen kürzere Gültigkeitsdauern für Zertifikate bevor

April 21, 2026

Sofortige Unterzeichnung

So verhindern Sie Prompt-Injection-Angriffe in agentenbasierten KI-Systemen

April 6, 2026

Code-Signierung

Die Bedeutung von Ernsthaftigkeit bei der Signierung von Bootloadern und Firmware

Januar 7, 2026