Sicherheitsforscher von Trail of Bits haben eine neue Schwachstelle in KI-Systemen entdeckt. Diese Schwachstelle nutzt die Verkleinerung von Bildern aus, um schädliche Anweisungen zu verbergen, die zum Diebstahl von Benutzerdaten führen können. Die Methode demonstriert, wie Angreifer unsichtbare Anweisungen in hochauflösende Bilder einbetten können. Diese Anweisungen werden erst sichtbar, wenn das Bild neu berechnet wird – ein gängiger Vorverarbeitungsschritt in KI-Pipelines.
Der Angriff basiert auf einem Konzept, das erstmals 2020 von Forschern der TU Braunschweig in einem USENIX-Paper vorgestellt wurde. Er erweitert die Theorie zu einer praktischen Schwachstelle in großen Sprachmodell-Anwendungen (LLM). Die Trail-of-Bits-Forscher Kikimora Morozova und Suha Sabi Hussain zeigten, dass beim automatischen Verkleinern von Bildern verborgene Muster entstehen. Algorithmen wie Nearest-Neighbor-, bilineare oder bikubische Interpolation können diese Muster erzeugen, die von KI-Modellen als Text interpretiert werden.
In einem Machbarkeitsnachweis nutzte das Team bikubische Skalierung, um in bestimmten dunklen Bereichen eines Bildes versteckte Anweisungen sichtbar zu machen. Diese Anweisungen wurden anschließend über Zapier MCP mithilfe der Gemini CLI von Google ausgeführt. Dadurch konnten Google-Kalenderdaten ohne ausdrückliche Zustimmung des Nutzers an eine beliebige E-Mail-Adresse gesendet werden.
Zu den wichtigsten Systemen, die nachweislich anfällig für den Angriff sind, gehören:
- Google Gemini CLI und Vertex AI Studio
- Gemini-Weboberfläche und API
- Google Assistant auf Android
- Tools von Drittanbietern wie Genspark
Zur Unterstützung der Tests veröffentlichte Trail of Bits Anamorpher, ein Open-Source-Tool, das bösartige Images generiert, die auf verschiedene Downscaling-Methoden zugeschnitten sind.
Zur Risikominderung empfehlen die Forscher, die Bildabmessungen zu beschränken, Nutzern Vorschauen verkleinerter Bilder bereitzustellen und für sensible Tool-Aufrufe eine explizite Bestätigung zu verlangen. Sie betonen außerdem die Wichtigkeit sicherer Designmuster zum Schutz vor multimodaler Prompt-Injection.
Diese Entdeckung unterstreicht die zunehmende Komplexität der Absicherung von KI-Systemen, insbesondere da Angreifer immer neue Wege finden, Eingaben in Text- und Bildformaten zu manipulieren.
Quelle:

