Alle 14 Tage aktuelle News aus der IT-Szene >
Forschungen von Unit 42 zeigen, dass selbst moderne Large Language Models (LLMs) wie DeepSeek durch neue Jailbreaking-Techniken umgangen werden können. Die Methoden Deceptive Delight, Bad Likert Judge und Crescendo ermöglichen es, die Schutzmechanismen von KI-Modellen zu überlisten und unerlaubte Inhalte zu generieren. Diese Erkenntnisse verdeutlichen die Herausforderungen für Unternehmen, wenn es um den sicheren Einsatz von generativer KI geht.
Künstliche Intelligenz entwickelt sich rasant weiter, doch auch die Methoden zur Umgehung von Sicherheitsmechanismen schreiten voran. Sicherheitsforscher von Unit 42 haben drei neue Jailbreaking-Techniken identifiziert, mit denen sich aktuelle LLMs manipulieren lassen. Besonders das Open-Source-Modell DeepSeek zeigt hohe Verwundbarkeiten. Dies wirft Fragen für Unternehmen auf: Wie sicher sind KI-Modelle wirklich? Welche Risiken bestehen, wenn Mitarbeiter unkontrolliert mit LLMs arbeiten? Und welche Maßnahmen sollten Unternehmen treffen, um sich zu schützen?
Jailbreaking bezeichnet das gezielte Umgehen von Sicherheitsbarrieren in KI-Modellen, die eigentlich verhindern sollen, dass LLMs schädliche oder verbotene Inhalte generieren. Ähnlich wie das Umgehen von Schutzmechanismen in Betriebssystemen, kann Jailbreaking dazu genutzt werden, um unerlaubte Anfragen zu umgehen und detaillierte Anleitungen für sicherheitskritische Themen wie Malware-Programmierung oder Social Engineering zu erhalten. Die von Unit 42 entdeckten Techniken zeigen, dass diese Angriffe immer raffinierter werden und bereits ohne tiefgehendes technisches Know-how durchführbar sind.
Drei effektive Angriffsstrategien Die drei untersuchten Methoden verdeutlichen, wie vielseitig Jailbreaking sein kann:
Bad Likert Judge: Diese Methode nutzt ein Bewertungssystem, um das KI-Modell zur Generierung unerlaubter Inhalte zu verleiten. Durch geschickte Manipulation wird die KI dazu gebracht, schädliche Inhalte als harmlose Beispiele zu bewerten und auszugeben.
Crescendo: Hierbei wird die KI schrittweise an ein verbotenes Thema herangeführt. Die Anfrage beginnt harmlos und eskaliert durch geschickte Folgefragen, bis detaillierte und sicherheitskritische Anleitungen entstehen.
Deceptive Delight: Diese Technik tarnt unsichere Themen innerhalb von harmlosen Anfragen, beispielsweise in einer fiktiven Geschichte oder einem technischen Szenario, sodass die KI unbeabsichtigt unerlaubte Informationen generiert.
Foto: Adobe Stock / brillianata
Die identifizierten Schwachstellen zeigen, dass LLMs nicht nur ein Innovationsmotor, sondern auch ein Sicherheitsrisiko sein können. Besonders problematisch ist, dass Jailbreaking-Techniken es ermöglichen, generative KI für Cyberangriffe zu missbrauchen. Dazu zählen:
Die Erstellung von Schadsoftware wie Keyloggern oder Skripten zur Datenexfiltration
Die Generierung von Phishing-Mails mit gezielten Manipulationstechniken
Anleitungen für die Herstellung von gefährlichen Substanzen oder Explosivstoffen
Unternehmen müssen sich bewusst sein, dass nicht nur ihre eigenen KI-Modelle, sondern auch unkontrollierte Anwendungen durch Mitarbeitende eine potenzielle Gefahr darstellen. Die Nutzung von nicht autorisierten LLMs kann die Sicherheit von Unternehmensnetzwerken und sensiblen Daten erheblich gefährden.
Es gibt keine hundertprozentige Sicherheit gegen Jailbreaking, aber Unternehmen können Maßnahmen ergreifen, um das Risiko zu minimieren:
Einschränkung des Zugriffs auf unsichere LLMs: Unternehmen sollten nur vertrauenswürdige KI-Modelle mit strengen Sicherheitsvorgaben nutzen und den Zugang zu offenen Modellen begrenzen.
Monitoring und Protokollierung der KI-Nutzung: Durch KI-gestützte Sicherheitslösungen kann beobachtet werden, welche Anfragen an LLMs gestellt werden, um verdächtige Interaktionen zu erkennen.
Security-Trainings für Mitarbeiter: Sensibilisierung und Schulung helfen, die Risiken im Umgang mit KI zu verstehen und potenzielle Angriffsvektoren zu minimieren.
Regelmaßige Sicherheitsbewertungen: Durch Tests von unabhängigen Sicherheitsforschern können Schwachstellen in unternehmenseigenen KI-Systemen frühzeitig erkannt und behoben werden.
Die aktuelle Forschung zeigt, dass generative KI-Modelle noch weit davon entfernt sind, vollständig abgesichert zu sein. Jailbreaking-Techniken wie Bad Likert Judge, Crescendo und Deceptive Delight unterstreichen, dass sich Sicherheitsmechanismen mit vergleichsweise einfachen Methoden umgehen lassen. Für Unternehmen bedeutet dies, dass sie nicht nur die Entwicklung eigener LLMs mit strengen Sicherheitsprotokollen versehen, sondern auch die Nutzung von KI in ihrem Unternehmen aktiv steuern und kontrollieren müssen. Nur so lässt sich das Potenzial der KI sicher und verantwortungsvoll nutzen.