Wenn KI gekapert wird – Prompt Injection als Compliance-Risiko

Update Datenschutz Nr. 252

Der Einsatz generativer Künstlicher Intelligenz in Unternehmensprozessen nimmt spürbar zu. Insbesondere KI-Agenten und andere KI-gestützte Assistenzsysteme versprechen erhebliche Effizienzgewinne, etwa durch die automatisierte Verarbeitung von Informationen, die Unterstützung interner Arbeitsabläufe oder die eigenständige Ausführung digitaler Aufgaben. Gleichzeitig entstehen hierdurch neue Sicherheitsrisiken, die sich von klassischen IT-Sicherheitsbedrohungen teilweise grundlegend unterscheiden. Besondere Aufmerksamkeit erfährt derzeit das Phänomen der sog. „Prompt Injection“, bei dem KI-Systeme durch gezielt manipulierte Eingaben oder Inhalte zu unerwünschtem Verhalten veranlasst werden können. Vor diesem Hintergrund beleuchtet der folgende Beitrag die technischen und regulatorischen Grundlagen von Prompt-Injection-Angriffen, die hiermit verbundenen Haftungsrisiken sowie geeignete technische und organisatorische Schutzmaßnahmen für Unternehmen.

I. Was sind sog. „Prompt Injections“?

Unter sog. „Prompt Injection“ versteht man gezielte Manipulationsversuche gegenüber KI-Systemen, insbesondere gegenüber Large Language Models („LLMs“), bei denen Eingaben oder externe Inhalte darauf abzielen, das Verhalten des Systems in ungewollter Weise zu beeinflussen. Anders als klassische Software verarbeitet generative KI Anweisungen nicht strikt regelbasiert, sondern kontextabhängig auf Grundlage natürlicher Sprache. Hieraus ergibt sich die Besonderheit, dass nicht nur unmittelbare Nutzereingaben, sondern auch verarbeitete Dokumente, Webseiteninhalte oder E-Mails Einfluss auf das Verhalten des Systems nehmen können.

In der Praxis können entsprechende Angriffe unterschiedlich ausgestaltet sein. Bei einer sog. „Direct Prompt Injection“ versucht ein Nutzer etwa durch Eingaben wie „Ignoriere alle vorherigen Anweisungen“ interne Sicherheitsvorgaben oder Systembeschränkungen zu umgehen. Von besonderer praktischer Relevanz sind jedoch sog. „Indirect Prompt Injections“. Hierbei werden schädliche Anweisungen in externe Inhalte eingebettet, die durch das KI-System automatisiert verarbeitet werden. Denkbar ist beispielsweise, dass sich in einem eingescannten PDF-Dokument, einer E-Mail-Signatur oder einem Webseiteninhalt versteckte Instruktionen befinden, welche den KI-Agenten dazu veranlassen, vertrauliche Informationen offenzulegen oder bestimmte Aktionen auszuführen.

Gerade beim Einsatz von KI-Agenten, die eigenständig auf interne Systeme, Datenbanken oder externe Anwendungen zugreifen können, entstehen hierdurch erhebliche Risiken. So könnte ein KI-gestützter E-Mail-Assistent etwa durch manipulierte Inhalte dazu gebracht werden, interne Dokumente zusammenzufassen und an unberechtigte Empfänger weiterzuleiten. Ebenso denkbar sind Szenarien, in denen ein KI-Agent fehlerhafte Buchungen auslöst, interne Freigabeprozesse umgeht oder sensible Unternehmensdaten bei der automatisierten Recherche verarbeitet und offenlegt.

Die praktische Relevanz solcher Angriffe nimmt insbesondere deshalb zu, weil Unternehmen generative KI zunehmend tief in bestehende Geschäftsprozesse integrieren. Je umfassender KI-Systeme auf interne Informationen, Kommunikationskanäle und digitale Werkzeuge zugreifen können, desto größer ist zugleich die potenzielle Angriffsfläche für Prompt-Injection-Angriffe.

II. Regulatorischer Rahmen für KI-Agenten

Mit dem Inkrafttreten der KI-VO hat die Europäische Union erstmals einen umfassenden Rechtsrahmen für den Einsatz Künstlicher Intelligenz geschaffen. Die KI-VO unterscheidet dabei grundsätzlich zwischen den zugrunde liegenden KI-Modellen und den darauf aufbauenden KI-Systemen. Gerade bei KI-Agenten ist diese Differenzierung von besonderer Bedeutung, da sie typischerweise auf großen Sprachmodellen („Large Language Models“ bzw. „LLMs“) basieren und zugleich eigenständig Aufgaben planen, Informationen verarbeiten sowie externe Anwendungen oder Schnittstellen ansteuern können.

Bereits unabhängig von einer konkreten Risikoeinstufung enthält die KI-VO allgemeine Compliance-Anforderungen für Unternehmen. Von besonderer praktischer Relevanz ist hierbei Art. 4 KI-VO, der seit Februar 2025 gilt und erstmals ausdrücklich eine Pflicht zur Sicherstellung ausreichender „KI-Kompetenz“ normiert (wir berichteten). Anbieter und Betreiber von KI-Systemen müssen danach Maßnahmen ergreifen, um sicherzustellen, dass die mit dem Betrieb und der Nutzung von KI-Systemen befassten Personen über angemessene technische Kenntnisse, Erfahrung und Schulung verfügen. Für Unternehmen bedeutet dies insbesondere, dass Mitarbeiter im Umgang mit generativer KI und KI-Agenten nicht nur technisch geschult, sondern auch für Risiken wie Fehlentscheidungen, Halluzinationen oder Manipulationsangriffe, etwa durch Prompt Injections, sensibilisiert werden müssen.

Darüber hinaus richtet sich der konkrete Pflichtenumfang maßgeblich nach der regulatorischen Einordnung des jeweiligen Systems. Auf Ebene der zugrunde liegenden KI-Modelle gelten große Sprachmodelle regelmäßig als sog. „KI-Modelle mit allgemeinem Verwendungszweck“ im Sinne der Art. 53 ff. KI-VO. Anbieter solcher Modelle treffen insbesondere Transparenz-, Dokumentations- und Informationspflichten. Wird ein Modell zusätzlich als Modell „mit systemischem Risiko“ eingestuft, kommen weitergehende Anforderungen hinzu, etwa hinsichtlich Modellevaluierungen, Risikobewertungen und Cybersicherheitsmaßnahmen.

Für Unternehmen besonders praxisrelevant ist jedoch die Einordnung auf Systemebene. Entscheidend ist hierbei der konkrete Verwendungszweck des KI-Agenten. Wird ein KI-Agent in sensiblen Bereichen wie dem Personalwesen, im Finanzsektor oder im Kontext kritischer Infrastrukturen eingesetzt, kann er als Hochrisiko-KI-System einzustufen sein. In diesem Fall greifen umfangreiche regulatorische Pflichten, insbesondere in Bezug auf Risikomanagement, menschliche Aufsicht und technische Robustheit. Nach Art. 9 KI-VO ist ein fortlaufendes Risikomanagementsystem einzurichten, das Risiken identifiziert, bewertet und minimiert. Art. 14 KI-VO verlangt zudem wirksame Mechanismen menschlicher Aufsicht, um Fehlfunktionen oder unerwünschte Systementscheidungen erkennen und korrigieren zu können. Ergänzend verpflichtet Art. 15 KI-VO dazu, ein angemessenes Maß an Genauigkeit, Robustheit und Cybersicherheit sicherzustellen.

Gerade im Zusammenhang mit KI-Agenten gewinnen diese Anforderungen besondere Bedeutung. Anders als klassische KI-Anwendungen beschränken sich KI-Agenten häufig nicht auf die reine Generierung von Inhalten, sondern können eigenständig Prozesse steuern, externe Daten abrufen oder digitale Handlungen ausführen. Der Grad ihrer Autonomie beeinflusst daher maßgeblich das Risikoprofil des Systems und damit auch die Intensität der regulatorischen Anforderungen. Problematisch ist dabei insbesondere, dass der risikobasierte Ansatz der KI-VO primär auf den vorgesehenen Verwendungszweck abstellt, während die tatsächlichen technischen Fähigkeiten eines KI-Agenten wie die eigenständige Steuerung von Browsern oder IT-Systemen bislang nur eingeschränkt berücksichtigt werden.

III. Technische und organisatorische Schutzmaßnahmen

Unternehmen sollten Prompt-Injection-Angriffe nicht lediglich als theoretisches Risiko, sondern als konkrete Sicherheitsherausforderung beim produktiven Einsatz generativer KI betrachten. Da sich entsprechende Angriffe häufig nicht vollständig verhindern lassen, kommt es in der Praxis vor allem darauf an, Risiken frühzeitig zu erkennen, technische Schutzmechanismen zu etablieren und die Handlungsspielräume von KI-Agenten gezielt zu begrenzen.

Aus technischer Sicht empfiehlt sich zunächst eine strikte Beschränkung von Berechtigungen und Systemzugriffen. KI-Agenten sollten ausschließlich auf diejenigen Daten, Anwendungen und Schnittstellen zugreifen können, die für den jeweiligen Einsatzzweck zwingend erforderlich sind („Least-Privilege-Prinzip“). Besonders kritisch sind Systeme, die eigenständig E-Mails versenden, externe Tools aufrufen oder Schreibzugriffe auf interne Systeme besitzen. Je weitreichender die Handlungsmöglichkeiten eines KI-Agenten ausgestaltet sind, desto höher fällt zugleich die potenzielle Angriffsfläche für Prompt-Injection-Angriffe aus.

Darüber hinaus sollten externe Inhalte, die durch KI-Systeme verarbeitet werden, möglichst isoliert und kontrolliert behandelt werden. Dies betrifft insbesondere E-Mails, Webseiteninhalte, PDF-Dokumente oder sonstige Dateien, die versteckte Anweisungen enthalten können. Unternehmen setzen hierbei zunehmend auf technische Schutzmechanismen wie Input-Filter, Prompt-Sanitization oder isolierte Ausführungsumgebungen („Sandboxing“), um manipulative Inhalte frühzeitig zu erkennen oder deren Wirkung zu begrenzen.

Von zentraler Bedeutung bleibt zudem die menschliche Kontrolle. KI-Agenten sollten gerade bei kritischen Prozessen nicht vollständig autonom agieren, sondern in angemessene Freigabe- und Kontrollmechanismen eingebunden werden. So kann etwa vorgesehen werden, dass sensible Aktionen wie beispielsweise externe Kommunikation, Zahlungen oder Datenfreigaben erst nach menschlicher Bestätigung ausgeführt werden. Gerade im Zusammenhang mit Prompt Injections kann eine solche „Human-in-the-Loop“-Kontrolle entscheidend dazu beitragen, Fehlverhalten frühzeitig zu erkennen und Schäden zu verhindern.

Schließlich empfiehlt sich eine fortlaufende Überprüfung eingesetzter KI-Systeme durch Tests, Monitoring und sog. „Red-Teaming“. Hierbei wird gezielt versucht, Systeme durch manipulierte Eingaben oder atypische Szenarien zu Fehlverhalten zu bewegen, um Schwachstellen frühzeitig zu identifizieren. Angesichts der dynamischen Entwicklung generativer KI dürfte ein einmalig implementiertes Sicherheitskonzept regelmäßig nicht ausreichen. Vielmehr erfordert der sichere Einsatz von KI-Agenten eine kontinuierliche Anpassung technischer und organisatorischer Schutzmaßnahmen.

IV. Haftungsrisiken bei Nichtumsetzung

Unternehmen, die KI-Agenten ohne angemessene Sicherheits- und Kontrollmechanismen einsetzen, setzen sich erheblichen Haftungsrisiken aus. Kommt es infolge einer Prompt Injection etwa zur Offenlegung vertraulicher Informationen, zu fehlerhaften Entscheidungen oder zu ungewollten Systemhandlungen, stellt sich regelmäßig die Frage, ob ausreichende technische und organisatorische Schutzmaßnahmen implementiert wurden.

Neben möglichen Bußgeldern nach der KI-VO kommen insbesondere zivilrechtliche Haftungsrisiken wegen Organisationsverschuldens oder Verletzung vertraglicher Pflichten in Betracht. Hinzu treten potenzielle Reputationsschäden und Vertrauensverluste gegenüber Kunden und Geschäftspartnern. Gerade weil KI-Agenten zunehmend eigenständig auf Unternehmenssysteme und Geschäftsprozesse zugreifen, gewinnt ein wirksames KI-Risikomanagement damit auch haftungsrechtlich erheblich an Bedeutung.

V. Fazit und Ausblick

Prompt-Injection-Angriffe verdeutlichen, dass der Einsatz generativer KI und insbesondere von KI-Agenten nicht nur erhebliche Effizienzpotenziale, sondern zugleich neue Sicherheits- und Compliance-Risiken mit sich bringt. Mit zunehmender Integration autonomer KI-Systeme in Unternehmensprozesse dürften sowohl die regulatorischen Anforderungen als auch die Erwartungen an technische und organisatorische Schutzmaßnahmen weiter steigen. Unternehmen sind daher gut beraten, KI-Governance, IT-Sicherheit und Compliance frühzeitig zusammenzudenken und bestehende Kontrollmechanismen an die Besonderheiten generativer KI anzupassen. Gerade vor dem Hintergrund der fortschreitenden Konkretisierung der KI-VO sowie der dynamischen technologischen Entwicklung ist davon auszugehen, dass Prompt Injections und vergleichbare Angriffsszenarien künftig weiter an praktischer Relevanz gewinnen werden.

Dieser Beitrag wurde in Zusammenarbeit mit unserer stud. Mitarbeiterin Emily Bernklau erstellt.

Als PDF herunterladen

Diesen Artikel teilen

Datenschutz & Datenrecht

IP, Media & Technology