Das Research-Team Checkmarx Zero veröffentlicht neue Analyseergebnisse zur Angriffstechnik „Lies-in-the-Loop“ (LITL). Die Untersuchung zeigt, dass Human-in-the-Loop-Dialoge – ein von vielen Anbietern propagierter menschlicher Bestätigungsschritt vor potenziell gefährlichen Aktionen – manipulierbar sind. Damit verlieren sie ihre Funktion als vermeintliche „letzte Sicherheitsbarriere“ gegen schädliche Befehle durch KI-Code-Assistenten.
Foto: Checkmarx
Die Abbildung zeigt den Workflow einer typischen LITL lies-in-the-loop Attacke
KI-gestützte Programmierung hat sich in Entwicklungsprozessen etabliert – und mit ihr Schutzmechanismen, die Nutzerinnen und Nutzer vor ungewollten Aktionen bewahren sollen. Dazu zählt der sogenannte Human-in-the-Loop-(HITL)-Ansatz: Bevor ein Agent einen potenziell gefährlichen Befehl ausführt, präsentiert er einen Bestätigungsdialog. Genau diesen Baustein nimmt das Research-Team Checkmarx Zero ins Visier. Die neue Angriffstechnik „Lies-in-the-Loop“ zeigt, dass Angreifer die angezeigten Inhalte solcher Dialoge gezielt verfälschen können. Nutzer stimmen scheinbar harmlosen Maßnahmen zu – tatsächlich genehmigen sie das Ausführen von verstecktem Schadcode.
Die Checkmarx-Forschung stellt die Grundannahme infrage, HITL-Dialoge seien ein verlässlicher Schutz vor Prompt-Injection-Risiken oder „Excessive Agency“. Dies gilt als empfohlene Maßnahme in zwei Kategorien der OWASP-LLM-Top-10-Liste (LLM01 „Prompt Injection“ und LLM06 „Excessive Agency“).
Beim LITL-Ansatz manipulieren Angreifer die textliche Darstellung in der HITL-Abfrage so, dass Nutzerinnen und Nutzer nur unbedenkliche Inhalte erkennen. Checkmarx beschreibt unter anderem zwei Verfahren: sogenanntes Padding – das Voranstellen oder Anhängen großer Mengen harmlos wirkender Texte – sowie Umschreiben der Payload. Die bösartigen Befehle rutschen aus dem sichtbaren Bereich, während der sichtbare Anfang des Dialogs unauffällig wirkt.
Darüber hinaus zeigt die Analyse, dass Metadaten einzelner Code-Assistenten veränderbar sind. So kann etwa die einzeilige Beschreibung in Claude Code per indirekter Prompt Injection editiert werden. Nutzer lesen eine manipulierte Zusammenfassung, die die tatsächliche Operation verschleiert.
LITL beschränkt sich nicht auf Textmanipulation. Das Research-Team weist auf die Relevanz von Darstellungstechniken hin, weil HITL-Dialoge in vielen Werkzeugen mit Markdown oder HTML formatiert werden.
Für Microsoft Copilot Chat beschreibt Checkmarx eine Markdown-Injection-Schwachstelle: Wird Markdown-Syntax nicht ausreichend bereinigt, kann ein Angreifer UI-Elemente imitieren. So lassen sich etwa Code-Blöcke vorzeitig schließen, lange erklärende Passagen einschieben oder unauffällige Ersatzbefehle anzeigen. Das Resultat: ein manipuliertes Interface, das scheinbar legitime Bestätigungsschritte präsentiert.
Die Risiken sind besonders ausgeprägt bei privilegierten KI-Agenten, die Betriebssystembefehle ausführen. Hier kann indirekte Prompt Injection dazu führen, dass aus dem manipulierten Dialog heraus Code auf dem Zielsystem ausgeführt wird.
Nach Angaben der Veröffentlichung erkennt die Branche das Problem grundsätzlich an, stuft es aber zum Teil als „out of scope“ ein. Laut der Offenlegungschronologie im Blog wurde bei Anthropic am 27. August 2025 eine Schwachstelle zur willkürlichen Befehlsausführung über das Bash-Utility gemeldet, am 28. August 2025 der LITL-Aspekt zur HITL-Fälschung. Beide Punkte seien als „Informative“ eingestuft worden.
Für Microsoft wurde der Report am 15. Oktober 2025 eingereicht und am selben Tag bestätigt. Am 28. Oktober 2025 teilte Microsoft mit, dass das Engineering-Team daran arbeite; am 4. November 2025 wurde der Vorgang als „Completed“ geschlossen – ohne Fix. In der schriftlichen Stellungnahme verweist Microsoft unter anderem auf die Voraussetzung mehrerer „nicht-standardmäßiger Nutzeraktionen“, eingeschränkte Reproduzierbarkeit und das Konzept des „Workplace Trust“.
Damit bleibt ein zentrales Ergebnis bestehen: Solange HITL-Dialoge manipuliert werden können, bleibt das Risiko bestehen, dass Nutzer unwissentlich bösartige Aktionen autorisieren. Gleichzeitig wächst die Bedeutung solcher Agentensicherungen, da KI-gestützte Tools zunehmend feste Bestandteile moderner Entwicklungs-Workflows sind.
Offen bleibt, wie Anbieter künftig die Balance zwischen Nutzerverantwortung, Erkennungsmechanismen und technischer Absicherung gestalten – und ob HITL-Ansätze ohne ergänzende Schutzebenen weiterhin als tragfähige Abwehrstrategie gelten können.
Weitere Details finden Sie im englischsprachigen Blogbeitrag auf der Checkmarx Homepage.