Was ist ein Prompt-Injection-Angriff? Sicherheit für KI-Prompts durch Vertrauen

Zum Abschnitt springen

Definition

Prompt-Injectionist eine Sicherheitslücke, bei der bösartige oder nicht vertrauenswürdige Inhalte in Daten eingebettet werden, die von einemgroßen Sprachmodell verarbeitet werden, was dazu führen kann, dass agentische Systeme unbefugte oder unbeabsichtigte Aktionen ausführen. Wenn es einem Angreifer gelingt, bösartige Anweisungen in einen Prompt einzuschleusen, interpretiert das KI-System diesen Inhalt als legitime Anweisungen und handelt entsprechend.

Der Aufstieg agentischer KI-Systeme stellt einen grundlegenden Wandel in der Art und Weise dar, wie Unternehmen künstliche Intelligenz einsetzen. Im Gegensatz zu generativen KI-Tools, die lediglich auf Eingabeaufforderungen mit Text oder Medien reagieren, führen agentische KI-Systeme autonome Aktionen durch, die reale Konsequenzen haben. Diese Entwicklung bringt eine kritische Sicherheitslücke mit sich: die Prompt-Injection. Da KI-Agenten zunehmend in der Lage sind, auf Unternehmenssysteme zuzugreifen, Datenbankabfragen auszuführen und Finanztransaktionen zu initiieren, wird das Verständnis und die Abwehr von Prompt-Injection-Angriffen unerlässlich für die Aufrechterhaltung der Unternehmenssicherheit und der betrieblichen Integrität.

Was ist Prompt Injection?

Im Zusammenhang mit agentenbasierten KI-Systemen entspricht die Prompt-Injection dem KI-Äquivalent von Code-Injection-Angriffen in herkömmlichen software . Der grundlegende Unterschied liegt darin, wie diese Systeme Anweisungen verarbeiten:

Traditionelle Code-Injektion: Nutzt Schwachstellen in deterministischen Anwendungen aus, die in einer traditionellen Programmiersprache geschrieben sind

Prompt-Injection: Nutzt die Unfähigkeit von KI-Systemen aus, von Natur aus zwischen vertrauenswürdigen Anweisungen und bösartigen Inhalten zu unterscheiden, die in Daten in natürlicher Sprache eingebettet sind

Die Schwere von Prompt-Injection-Angriffen nimmt in agentenbasierten KI-Umgebungen dramatisch zu. Während Prompt-Injection in generativer KI zu irreführenden Antworten oder unangemessenen Inhalten führen kann, kann derselbe Angriff auf ein agentenbasiertes System folgende Folgen haben:

Unbefugte API-Aufrufe an kritische Unternehmenssysteme

Datendiebstahl aus gesicherten Datenbanken

Eskalation bei Missbrauch von Berechtigungen und unbefugtem Zugriff

Ausführung unbeabsichtigter Aufgaben mit erheblichen geschäftlichen Auswirkungen

Finanztransaktionen, die ohne ordnungsgemäße Genehmigung veranlasst wurden

Änderungen an der Infrastrukturkonfiguration, die die Sicherheit gefährden

In agentenbasierten Systemen fungieren Eingabeaufforderungen als nicht-deterministische Programme, die in natürlicher Sprache verfasst sind. Dieser Paradigmenwechsel erhöht die Sicherheitsrisiken erheblich und macht aus einem ehemals rein inhaltlichen Moderationsproblem ein kritisches Sicherheitsrisiko für die Infrastruktur.

Prompt-Injection verstehen: Die zentrale Sicherheitslücke

Was macht eine sofortige Injektion möglich?

Die grundlegende Herausforderung, die der Prompt-Injection zugrunde liegt, ergibt sich daraus, wie KI-Agenten Anweisungen in natürlicher Sprache verarbeiten. Im Gegensatz zu herkömmlicher software die Programmausführung einer vordefinierten Abfolge präziser Anweisungen folgt, interpretieren KI-Systeme alle Eingaben über dieselben Mechanismen der natürlichen Sprachverarbeitung.

KI-Agenten erhalten Eingabeaufforderungen als Anweisungen, die ihr Verhalten und ihre Entscheidungsfindung steuern. Diese Eingabeaufforderungen dienen als primäre Schnittstelle zur Steuerung der Agentenaktionen und stellen somit eine kritische Angriffsfläche dar. Der Agent kann von sich aus nicht feststellen, ob eine bestimmte Anweisung von einem vertrauenswürdigen Administrator stammt oder von einem Angreifer in die zu verarbeitenden Daten eingebettet wurde.

Diese architektonische Einschränkung wird von Sicherheitsforschern zunehmend erkannt. Wie Simon Willison, der Entwickler des Django-Web-Frameworks,in seiner Analyse der „tödlichen Dreierkombination“ beschreibt,führt die Kombination aus großen Sprachmodellen (LLMs), dem Zugriff auf private Daten und der Fähigkeit, auf externe Systeme einzuwirken, zu einem Szenario, in dem die Vermischung vertrauenswürdiger und nicht vertrauenswürdiger Eingaben zu gefährlichen Ausführungsergebnissen führen kann. Wenn Modelle nicht zuverlässig zwischen Anweisungen und Daten unterscheiden können, ist eine Verwechslung des Kontexts unvermeidlich.

Diese gestalterische Gegebenheit führt zu mehreren spezifischen Schwachstellen:

Kontextverwirrung: Agenten haben Schwierigkeiten, klare Grenzen zwischen Systemanweisungen, Benutzeranweisungen und Dateninhalten zu ziehen

Mehrdeutigkeit der natürlichen Sprache: Die Flexibilität der natürlichen Sprache erschwert es, starre Parsing-Regeln festzulegen, mit denen legitime von böswilligen Anweisungen unterschieden werden können

Eingaben aus mehreren Quellen: Agenten verarbeiten häufig Daten aus mehreren Quellen gleichzeitig, wodurch die Wahrscheinlichkeit steigt, dass schädliche Inhalte als Anweisungen interpretiert werden

Semantische Interpretation: KI-Systeme legen mehr Wert auf das Verständnis der Absicht als auf eine strenge Überprüfung der Syntax, wodurch sie anfällig für geschickt formulierte Injektionsversuche sind

Sehen Sie sich die Keyfactor in Aktion an und entdecken Sie, wie Sie jede Maschinenidentität finden, kontrollieren und automatisieren können.

Sehen Sie es in Aktion

grafische Illustration von abstrakten quadratischen Fliesen

Die Entwicklung von dialogorientierter KI hin zu agentenbasierter KI

Der Übergang von dialogorientierter KI zu agentenbasierter KI bedeutet eine grundlegende Veränderung des Risikoprofils. Ein Chatbot, der falsche Informationen liefert, verursacht Unannehmlichkeiten und potenziellen Reputationsschaden. Ein KI-Agent, der unbefugte Datenbankabfragen durchführt, Finanztransaktionen initiiert oder Infrastrukturkonfigurationen ändert, verursacht erheblichen Schaden, darunter:

Dienstausfälle, die den Geschäftsbetrieb beeinträchtigen

Nicht bestandene Compliance-Prüfungen und behördliche Sanktionen

Finanzielle Verluste durch nicht autorisierte Transaktionen

Datenschutzverletzungen, bei denen sensible Informationen offengelegt werden

Das Model Context Protocol (MCP) dient als zentrale Schlüsseltechnologie, die es KI-Agenten ermöglicht, auf standardisierte Weise auf externe software zuzugreifen. Ausgestattet mit verbundenen MCP-Servern – von denen jeder als spezialisierte API für den Zugriff auf bestehende Technologien fungiert – kann ein KI-Agent nun Maßnahmen ergreifen, um Ziele zu erreichen, anstatt lediglich Antworten zu generieren.

Agentische KI-Systeme zeichnen sich durch drei wesentliche Fähigkeiten aus:

1. Fähigkeit zur autonomen Ausführung: Die Fähigkeit, in vielen Fällen Maßnahmen mit realen Konsequenzen zu ergreifen, ohne dass jeder einzelne Schritt von einem Menschen genehmigt werden muss

2.Zugriff auf Tools und APIs: Integration mit Unternehmenssystemen, Datenbanken, Cloud-Diensten und externen APIs

3. Mehrstufiges Schlussfolgern: Aufgliederung übergeordneter Ziele in Abfolgen konkreter Handlungen

Diese Funktionen bieten einen enormen Mehrwert, der mit der Einstellung neuer Mitarbeiter vergleichbar ist, schaffen jedoch auch Angriffsflächen, die von herkömmlichen Sicherheitsmodellen nicht ausreichend abgedeckt werden. Der Anwendungsanbieter steht nicht mehr zwischen dem Nutzer und der KI, wodurch eine wichtige Kontrollinstanz wegfällt, an der traditionell die Validierung von Eingaben und die Filterung von Ausgaben stattfanden.

So funktionieren Prompt-Injection-Angriffe

Ein erfolgreicher Prompt-Injection-Angriff folgt einem vorhersehbaren Muster, das die grundlegende Architektur agentischer KI-Systeme ausnutzt:

1. Injektion: Eine bösartige Anweisung wird in benutzergesteuerte Daten oder Inhalte eingefügt, die der KI-Agent verarbeiten wird

2. Interpretation: Das KI-Modell interpretiert den schädlichen Inhalt als Teil seines vertrauenswürdigen Befehlssatzes und kann ihn nicht von legitimen Anweisungen unterscheiden

3. Ausführung: Der Agent führt aufgrund der eingeschleusten Befehle unbeabsichtigte Aktionen aus und greift dabei möglicherweise auf Systeme oder Daten zu, die über den vorgesehenen Umfang hinausgehen

4. Ausbreitung: In Multi-Agenten-Systemen kann sich die bösartige Anweisung durch einen „Telefon-Effekt“ ausbreiten, bei dem der Kontext bezüglich vertrauenswürdiger und nicht vertrauenswürdiger Eingaben verloren geht, während Anweisungen zwischen den Agenten weitergeleitet werden

Das Problem des „Stille-Post“-Effekts in Multi-Agenten-Systemen stellt einen besonders heimtückischen Aspekt der Eingabeaufforderung dar. Ein Agent kann eine Eingabeaufforderung erhalten und Teile der Arbeit an andere Agenten delegieren. Während die Informationen mehrere Agenten durchlaufen, kann der Kontext verloren gehen, der angibt, welche Teile der Anweisung aus vertrauenswürdigen Quellen stammen und welche aus nicht vertrauenswürdigen Benutzerdaten. Mehrere Agenten weiter unten in der Kette könnte ein Agent auf ursprünglich nicht vertrauenswürdige, vom Benutzer übermittelte Daten reagieren, als handele es sich um eine autorisierte Anweisung.

Eine ausführlichere Darstellung praktischer Techniken und Angriffsmuster finden Sie in unserem Beitrag darüber, wie Prompt-Injection-Angriffe funktionieren.

Prompt-Injection vs. herkömmliche Code-Injection

Das Verständnis des Zusammenhangs zwischen Prompt-Injection und herkömmlicher Code-Injection hilft Sicherheitsteams dabei, bekannte Frameworks zur Bedrohungsmodellierung auf diese neue Klasse von Schwachstellen anzuwenden:

Merkmal	Code-Injektion	Sofortige Injektion
Sprache	Traditionelle Programmiersprachen	Natürliche Sprache
Ausführung	durch deterministische Parser kompiliert oder interpretiert	LLM-Inferenz und semantische Interpretation
Validierung	Statische Sicherheitsprüfungen und Eingabevalidierung	Kontextabhängige Analyse mit begrenztem Determinismus
Risikofläche	Anwendungsschicht mit definierten Einstiegspunkten	KI-Inferenzschicht plus API-Zugriffsschicht
Durchsetzung von Grenzen	Die Codesignierung gewährleistet eine vertrauenswürdige Ausführung	Muss umgehend unterzeichnet werden, um die vertrauenswürdige Ausführung zu gewährleisten
Erkennung	Musterabgleich und signaturbasierte Erkennung	Erfordert eine semantische Analyse und Verhaltensüberwachung

Der Übergang von deterministischen zu nicht-deterministischen Ausführungsumgebungen verändert grundlegend die Art und Weise, wie Unternehmen Sicherheitskontrollen angehen müssen. Herkömmliche Techniken zur Eingabevalidierung, die bei Code-Injektionen wirksam sind – wie das Zulassen bestimmter Zeichen oder das Escapen spezieller Syntax – erweisen sich als unzureichend für Eingaben in natürlicher Sprache, bei denen praktisch jede Formulierung eine gültige Anweisung darstellen könnte.

Die Bedrohungslage für agentenbasierte KI-Systeme

Agentische KI-Systeme sehen sich einer vielfältigen Bedrohungslandschaft gegenüber, die über einfache Prompt-Injektion hinausgeht und zahlreiche Angriffsvektoren umfasst:

Bei Prompt-Injection-Angriffenwerden bösartige Inhalte in die vom Agenten verarbeiteten Daten eingebettet, um die Anweisungen des Agenten zu überschreiben oder zu verändern. Diese Angriffe nutzen die Unfähigkeit des Agenten aus, zwischen vertrauenswürdigen Anweisungen und nicht vertrauenswürdigen Daten zu unterscheiden.

Bei Replay-Angriffenwerden zuvor autorisierte Anweisungen erneut übermittelt, um eine unbefugte wiederholte Ausführung auszulösen. Fehlt bei den Anweisungen eine Gültigkeitsprüfung, kann ein Angreifer, der eine legitime, signierte Anweisung abfängt, diese unbegrenzt oft wiederholen.

Interne Bedrohungenentstehen, wenn autorisierte Benutzer Anweisungen außerhalb ihres genehmigten Zuständigkeitsbereichs erteilen und dabei möglicherweise ihren legitimen Zugriff ausnutzen, um über KI-Agenten unbefugte Handlungen durchzuführen.

Kompromittierte vorgelagerte Systemestellen legitime Integrationspunkte dar, die angegriffen wurden und nun bösartige Befehle ausgeben, die scheinbar von vertrauenswürdigen Quellen stammen.

Social-Engineering-Angriffemanipulieren menschliche Mitarbeiter dazu, unberechtigte Anweisungen zu genehmigen oder zu erteilen, wobei sie den menschlichen Faktor in den Autorisierungsabläufen von KI-Agenten ausnutzen.

So verhindern Sie eine sofortige Injektion

Die Abwehr von Prompt-Injection-Angriffen erfordert einen mehrschichtigen Sicherheitsansatz, der mehrere sich ergänzende Kontrollmaßnahmen kombiniert. Da kein einzelner Mechanismus alle Bedrohungsvektoren abdeckt, ist eine mehrschichtige Verteidigung unerlässlich.

Mehrschichtige Sicherheitsarchitektur

Bewährte Architekturen setzen auf mehrschichtige, sich ergänzende Kontrollmechanismen, um verschiedene Aspekte der Bedrohungslage abzudecken:

Menschliche Kontrollinstanz: Genehmigungsabläufe mit menschlicher Einbindung (Human-in-the-Loop) für risikoreiche Vorgänge bieten eine letzte Kontrollinstanz, bevor kritische Aktionen ausgeführt werden.

Semantische Analyseebene: KI-gestützte Gatekeeper führen eine Intent-Analyse und Anomalieerkennung durch und erkennen so Verstöße gegen Richtlinien, die syntaktischen Methoden entgehen.

Durchsetzung des Berechtigungsumfangs: Rollenbasierte Beschränkungen der Handlungsmöglichkeiten von KI-Agenten in Unternehmenssystemen stellen sicher, dass selbst autorisierte Genehmiger ihre Befugnisse nicht überschreiten können.

Kryptografische Vertrauensbasis: Die Signaturprüfung mit Zeitstempel-Durchsetzung bildet die grundlegende Ebene, die die darüber liegenden Ebenen vertrauenswürdig macht.

Lebenszyklusverwaltung und -überwachung: Die Verwaltung des gesamten Lebenszyklus von Identitätszertifikaten für Agenten, Zertifikaten für die sofortige Signatur und Identitätszertifikaten für Genehmiger gewährleistet umfassende Transparenz und Kontrolle.

In diesem Modell ist die kryptografische Signatur nicht nur eine Option unter vielen – sie ist vielmehr die Grundlage, die die darüber liegenden Schichten vertrauenswürdig macht. Die semantische Analyse einer nicht signierten Anweisung liefert Erkenntnisse über Inhalte unbekannter Herkunft, wodurch diese nicht umsetzbar werden. Die semantische Analyse einer signierten Anweisung ermöglicht eine Interpretation, bei der man sich der Authentizität des Inhalts sicher sein kann.

Kontexttrennung und rollenbasierte Isolierung

Durch die Festlegung klarer Abgrenzungen zwischen verschiedenen Arten von Inhalten und die Durchsetzung rollenbasierter Zugriffskontrollen lässt sich das Ausmaß potenzieller Schäden durch erfolgreiche Injektionsangriffe begrenzen.

Zu den wichtigsten Strategien gehören:

Trennung von Systemanweisungen und benutzerdefinierten Daten im Agent-Kontext

Einführung rollenbasierter Zugriffsbeschränkungen für bestimmte Agenten

Durchsetzung des Genehmigungsumfangs, um sicherzustellen, dass Genehmigende ihre Befugnisse nicht überschreiten

Verwendung separater Agent-Instanzen für verschiedene Sicherheitskontexte

Umsetzung des Prinzips der geringsten Berechtigungen für den API-Zugriff von Agenten

Kryptografische Sofortunterzeichnung

Die kryptografische Signatur bietet ähnliche Garantien hinsichtlich Herkunft und Integrität wie die Codesignatur in PKI-Systemen. Dieser Ansatz liefert eine mathematisch überprüfbare Gewähr dafür, dass Richtlinien aus autorisierten Quellen stammen und nicht verändert wurden.

Der Workflow für die sofortige Unterzeichnung funktioniert wie folgt:

1. Signieren: Autorisierte Anweisungsgeber signieren Anweisungen mit einem kryptografischen Schlüssel unter Verwendung einer Signaturlösung für Unternehmen

2. Verteilung: Die signierte Richtlinie, die Signatur und die Zertifikatskette werden gemeinsam an den Agenten verteilt

3. Überprüfung: Die Signaturen werden vor der Ausführung anhand der entsprechenden öffentlichen Schlüssel überprüft

4. Überprüfung der Aktualität: Durch die Überprüfung des Zeitstempels wird sichergestellt, dass die Anweisungen aktuell sind, und es werden Replay-Angriffe verhindert

5. Ausführung: Dem KI-Agenten werden nur Anweisungen zur Ausführung übergeben, die die Signaturprüfung bestanden haben

Wichtige Sicherheitseigenschaften, die durch kryptografische Signaturen erreicht werden:

Unwiderrufliche Authentizität: Eine gültige Signatur stellt den mathematischen Beweis dar, dass die Anweisung von einer Stelle erteilt wurde, die den entsprechenden privaten Schlüssel kontrolliert.

Manipulationsschutz: Jede Änderung an einer signierten Anweisung macht die Signatur ungültig, unabhängig davon, durch wie viele Systeme die Anweisung läuft

Entkoppelte Überprüfung: Zur Überprüfung der Signatur ist lediglich der öffentliche Schlüssel erforderlich, und die Überprüfung kann vollständig innerhalb der Vertrauensgrenze des Agenten erfolgen

Nachvollziehbarkeit der Prüfung: Signierte Anweisungen können zusammen mit ihren Signaturen protokolliert werden, was eine nachträgliche Überprüfung ermöglicht

Volle Kontrolle über das Vertrauensverhältnis: Unternehmen behalten die vollständige Kontrolle über Vertrauensbeziehungen, indem sie ihre eigene Unternehmens-Stammzertifizierungsstelle als einzige PKI festlegen, von der aus eine sofortige Signatur autorisiert werden kann

Um diese Angriffe zu verhindern, sind durchsetzbare Vertrauensgrenzen erforderlich. Entdecken Sie praktische Strategien zur Abwehr in „So verhindern Sie Prompt-Injection-Angriffe in agentenbasierten KI-Systemen“.

Die Rolle Keyfactorbeim Schutz vor Prompt-Injection

Die Eingabe von Befehlen stellt im Grunde genommen ein Problem hinsichtlich Vertrauen und Integrität dar. Unternehmen benötigen eine nachprüfbare Gewissheit, dass die an KI-Agenten erteilten Befehle aus autorisierten Quellen stammen und nicht manipuliert wurden.Keyfactor dieser Herausforderung, indem es bewährte PKI-Prinzipien durch kryptografische Befehlssignierung auf KI-Systeme anwendet.

Kryptografische Sofortunterschrift mitKeyfactor

Keyfactor Unternehmen, umfassende Architekturen für die sofortige Signierung zu implementieren, die überprüfbare Vertrauensketten vom Ursprung der Anweisung bis zur Ausführung durch den Agenten herstellen. Dieser Ansatz entspricht der herkömmlichen Signierung software und wendet dieselben Sicherheitsprinzipien auf nicht-deterministische Programme in natürlicher Sprache an:

Autorisierte Befehle werdenmithilfe vonKeyfactor SignServerkryptografisch signiert, einem Dienst, der zentralisierte Signaturdienste bereitstellt und damit die Komplexität der Schlüsselverwaltung von den Quellen der Befehle abstrahiert. Systeme, die Befehle signieren müssen, rufen eine Signatur-API auf, ohne jemals direkt über private Schlüssel zu verfügen oder diese zu verwalten.

Signaturen werden überprüft, bevor AgentenAnweisungen ausführen. Der Überprüfungsprozess stellt sicher, dass nur Anweisungen ausgeführt werden, die gültige Signaturen von Zertifikaten tragen, die auf die vertrauenswürdige Zertifizierungsstelle verweisen. Jede Änderung an der Anweisung nach der Signierung – sei es durch eine kompromittierte Orchestrierungsebene, ein Container-Register oder eine Volume-Einbindung – führt zu einem Fehler bei der Signaturüberprüfung.

Die zertifikatsgestützte Autorisierungermöglicht eine detaillierte Steuerung darüber, welche Systeme welche Arten von Anweisungen ausgeben dürfen. Richtlinienbasierte Signaturdienste setzen Autorisierungsregeln zum Zeitpunkt der Signatur durch und verlagern damit die Durchsetzung der Autorisierung vom Agenten auf den Signaturdienst, wo sie zentral verwaltet werden kann.

Der Schutz vor Manipulationenwird durch eine kryptografische Integritätsprüfung gewährleistet. Die Manipulationssicherheit digitaler Signaturen stellt sicher, dass jede Änderung an einer signierten Anweisung die Signatur ungültig macht, unabhängig davon, wie viele Systeme die Anweisung durchläuft.

Zur Abwehr von Replay-Angriffenwird eine auf Zeitstempeln basierende Signaturprüfung eingesetzt. Der Signaturdienst fügt der signierten Nutzlast einen vertrauenswürdigen Zeitstempel hinzu, und der Prüfagent lehnt Signaturen ab, die älter sind als ein für den jeweiligen Anwendungsfall festgelegter Schwellenwert.

Zahlreiche Integrationsschnittstellenunterstützen vielfältige Bereitstellungsumgebungen.SignServer REST-APIs für Cloud-native Anwendungen, PKCS#11 für Systeme, die standardisierte Schnittstellen für Kryptografieanbieter erfordern, sowie Windows KSP für die Integration in das Microsoft-Ökosystem.

Unternehmens-PKI für KI-Sicherheit

Die PKI-Lösungen für Unternehmen Keyfactorbieten die grundlegenden Funktionen, die für die Umsetzung einer schnellen Signatur in großem Maßstab erforderlich sind:

Eine zentralisierte Schlüsselverwaltungbeseitigt die Komplexität und das Risiko, die mit der Verteilung privater Schlüssel an verschiedene Stellen verbunden sind. Die Schlüsselgenerierung, -speicherung (einschließlich HSM-Unterstützung), -rotation und -sperrung erfolgen gemäß den Richtlinien der Organisation.

Die Durchsetzung der Richtliniengewährleistet, dass die Autorisierungsregeln bei allen Vorgängen zur Unterzeichnung von Richtlinien einheitlich angewendet werden. Durch die Verwendung unterschiedlicher Signaturzertifikate lassen sich verschiedene Anwendungsfälle unterscheiden, sodass jedem Agenten Zugriff auf die entsprechenden Systeme gewährt werden kann.

Das Lebenszyklusmanagementautomatisiert die Erneuerung von Zertifikaten und die Überprüfung auf widerrufene Zertifikate und integriert diese betrieblichen Anforderungen von Anfang an in die Pipelines zur Bereitstellung von Agenten.

Die Audit- und Compliance-Funktionenbieten einen umfassenden Überblick darüber, welche Richtlinien von wem und wann unterzeichnet wurden, und unterstützen damit forensische Untersuchungen, die Einhaltung von Vorschriften und die Beilegung von Streitigkeiten.

Bewältigung betrieblicher Herausforderungen

Die Lösungen Keyfactorbieten Antworten auf die praktischen Herausforderungen, denen Unternehmen bei der Einführung der sofortigen Signatur gegenüberstehen:

Die Komplexität der Schlüsselverwaltungwird durch zentralisierte Signaturdienste gelöst, die alle Schlüsselvorgänge von den anweisenden Stellen abstrahieren. Unternehmen, denen PKI-Fachwissen fehlt, können eine schnelle Signatur implementieren, ohne spezielle kryptografische Funktionen aufbauen zu müssen.

Die Anfälligkeit für Replay-Angriffewird durch die Einbindung von Zeitstempeln in signierte Inhalte gemindert, wodurch eine dem Risikoprofil des jeweiligen Anwendungsfalls angemessene Überprüfung der Aktualität ermöglicht wird.

Die Autorisierungskontrollewird verbessert, indem man über einfache Vertrauensentscheidungen hinausgeht und eine richtlinienbasierte Signatur unterstützt, die Autorisierungsregeln bereits bei der Signatur durchsetzt und so verhindert, dass sowohl nicht autorisierte als auch autorisierte Quellen ihren Zuständigkeitsbereich überschreiten.

Integrationsproblemewerden durch flexible APIs minimiert, die sich in bestehende CI/CD-Pipelines, Orchestrierungsplattformen und Workflows zur Agentenbereitstellung integrieren lassen.

Erfahren Sie, wie die Keyfactor Ihre PKI modernisieren, Zertifikatsausfälle verhindern und vieles mehr kann.

Demo anfordern

Häufig gestellte Fragen zur Prompt-Injektion

Was ist der Unterschied zwischen „Prompt Injection“ und „Prompt Leaking“?

Bei der Prompt-Injection werden die an einen KI-Agenten erteilten Befehle manipuliert, wodurch dieser unbefugte Aktionen ausführt. Beim Prompt-Leaking hingegen werden versteckte Systembefehle oder sensible Daten aus dem Kontext der KI extrahiert. Beide stellen zwar ein Sicherheitsrisiko dar, doch bei der Prompt-Injection steht die Manipulation von Aktionen im Vordergrund, während es beim Prompt-Leaking um die Offenlegung von Informationen geht.

Stellen Prompt-Injection-Angriffe nur für ChatGPT ein Risiko dar?

Nein. Jedes auf einem großen Sprachmodell (LLM) basierende System ist anfällig für Prompt-Injection, insbesondere solche mit API-Ausführungsfunktionen und Zugriff auf Unternehmenssysteme. Das Risiko ist besonders hoch bei agentenbasierten KI-Systemen, die eigenständig handeln können, anstatt lediglich Textantworten zu generieren. Unternehmen, die KI-Agenten mit Zugriff auf Datenbanken, APIs oder kritische Infrastruktur einsetzen, sind dem Risiko von Prompt-Injection ausgesetzt, unabhängig davon, welchen LLM-Anbieter sie nutzen.

Lässt sich eine sofortige Injektion durch Filterung verhindern?

Die Eingabefilterung und die Inhaltsmoderation bieten wertvolle Schutzmechanismen, können jedoch die Risiken durch Prompt-Injection nicht vollständig beseitigen. Die Flexibilität der natürlichen Sprache macht es äußerst schwierig, Filter zu entwickeln, die alle böswilligen Anweisungen abfangen, ohne dabei legitime Anwendungsfälle zu blockieren. Kryptografische Integritätsprüfungen bieten stärkere Garantien, da sie die Quelle und die Integrität von Anweisungen überprüfen, anstatt deren Inhalt auf böswillige Absichten zu analysieren.

Warum ist die sofortige Eingabe in Multi-Agenten-Systemen gefährlicher?

Multi-Agenten-Systeme stehen vor einem „Stille-Post“-Problem, bei dem der Kontext bezüglich vertrauenswürdiger und nicht vertrauenswürdiger Eingaben verloren gehen kann, während Anweisungen zwischen den Agenten weitergeleitet werden. Ein erster Agent erhält möglicherweise eine Eingabeaufforderung, die sowohl autorisierte Anweisungen als auch nicht vertrauenswürdige Benutzerdaten enthält. Wenn dieser Agent Aufgaben an andere Agenten delegiert, kann die Unterscheidung zwischen diesen Inhaltstypen verloren gehen. Einige Agenten weiter unten in der Kette könnte ein Agent auf ursprünglich nicht vertrauenswürdige Benutzerdaten so reagieren, als handele es sich um eine autorisierte Anweisung, was die Angriffsfläche und die potenziellen Auswirkungen drastisch vergrößert. Systeme, die auf manuelle Zertifikatsverwaltung oder fest programmierte Algorithmen setzen, weisen im Allgemeinen eine geringe Reife in Bezug auf Krypto-Agilität auf.

Sind Eingabevorlagen oder Whitelists ein wirksames Mittel, um Eingabe-Injektionen zu verhindern?

Die Verwendung von Befehlsvorlagen und Whitelists kann in streng kontrollierten Umgebungen effektiv sein.

Durch die Definition eines Registers mit vorab genehmigten Befehlsvorlagen können Unternehmen deterministische, überprüfbare Kontrollen durchsetzen. Jeder Befehl muss vor der Ausführung einem genehmigten Muster entsprechen, wodurch Unklarheiten beseitigt und der Eingabebereich eingeschränkt werden.

Dieser Ansatz lässt sich jedoch nicht gut skalieren. Mit zunehmender Anzahl von Anwendungsfällen wird die Verwaltung von Vorlagenregistern immer schwieriger. Neuartige, aber legitime Anfragen können standardmäßig blockiert werden, und einmalige oder hochdynamische Aufgaben eignen sich nur schlecht für starre Vorlagen.

Prompt-Templating eignet sich am besten für hochfrequente, sich wiederholende Vorgänge mit von Natur aus eingeschränkten Anweisungen. Bei umfassenderen agentenbasierten Workloads ist es am effektivsten, wenn es mit kryptografischer Signatur und mehrschichtigen Sicherheitskontrollen kombiniert wird, anstatt als eigenständige Verteidigungsmaßnahme eingesetzt zu werden.

Ausgewählt