KI-Würmer schlimmer als Viren: Sie können sich eigenmächtig verbreiten

Physikerin warnt vor Domino-Effekten durch selbst-reproduzierende KI-Prompts

Wer viel Arbeit an die KI abgibt, kann schnell die Kontrolle verlieren. Denn Fehler der KI fressen sich durch ganze Arbeitsprozesse. Noch schlimmer: Die KI kann selbständig eigene Befehle (Prompts) zu verbreiten und auf den Computern ahnungsloser Nutzer herumfuhrwerken.

Die Künstliche Intelligenz macht Fehler. Manchmal ganz absurde. Wenn man die KI damit beauftragt, ein Bild zu malen, einen Text zu schreiben oder zu recherchieren, sind die Konsequenzen der Fehler durch die KI noch überschaubar.

Doch mittlerweile werden immer mehr KI-Assistenten genutzt, die komplexe Aufgaben übernehmen, wie zum Beispiel die Firma zu verwalten, E-Mails zu versenden, die Unternehmens-Kommunikation zu managen oder Produktions-Prozesse zu optimieren.

Hier können sich ruckzuck Fehler verselbständigen und katastrophale Folgen nach sich ziehen.

Selbst-reproduzierende KI-Prompts agieren nach eigenen Interessen

Doch es kommt noch viel schlimmer. Wie die bekannte deutsche Physikerin Sabine Hossenfelder mit Bezug auf eine neue Studie der Cornell University berichtet, können KI-Agenten/Assistenten, die eigentlich nur automatische Arbeitsprozesse übernehmen und andere KIs steuern sollen, eigenständig KI-Befehle (Prompts) über E-Mails, Bilder, Musik, Texte und Arbeitsprozesse verbreiten, ohne dass die Menschen davon etwas mitbekommen.

Kleinste Veränderungen in der Pixel-Zusammenstellung eines Bildes beispielsweise oder für den Menschen nicht erkennbare Codes in einem Text können als Befehle an andere KI-Agenten weitergegeben werden.

Die Studie »Attacking Multimodal OS Agents with Malicious Image Patches« (»Angriff auf multimodale Betriebssystem-Agenten mit bösartigen Bildpatches«), auf die sich Hossefelder beruft, exemplifiziert dies an Beispielen und kommt zu der Schlussfolgerung, dass die jüngsten digitalen Entwicklungen multi-modalen Betriebssystem-Agenten über Vision-Sprach-Modelle und APIs die Möglichkeit eröffnen, direkt mit der Benutzeroberfläche zu interagieren und Aufgaben wie Mausklicks oder Bildschirmaufnahmen autonom auszuführen!

Hierbei nutzt ein neuer Angriffsvektor bösartige Bildpatches (MIPs), die so manipuliert sind, dass sie OS-Agenten bei Screenshots zu schädlichen Aktionen verleiten, z.B. Weiterleitungen zu gefährlichen Websites. Diese MIPs funktionieren bei verschiedenen Anfragen, Layouts und Agenten. Solche Angriffe zeigen kritische Sicherheitslücken.

Das Problem heißt »Prompt Injection«

Man kann es auch einfach so umschreiben: Sie surfen durch das Netz oder bekommen eine E-Mail, klicken auf ein Bild oder Text und – ohne es zu merken – verbreiten Sie Prompts (KI-Befehle), die von anderen KI-Agenten/Assistenten ausgelesen werden. Das kann sich dann wie ein Computer-Virus verbreiten. Und plötzlich arbeiten Programme nicht mehr so, wie sie ursprünglich sollten, und die KI verselbständigt sich.

Am Ende kann es sein, dass Ihr Computer oder Ihre ganze Firma von einer KI übernommen wird, die im Hintergrund Dinge ausführt, die Sie nicht wollen oder die sogar gegen Ihre eigenen Interessen sind – oder schlimmstenfalls kriminell.

KI kann Menschen erpressen!

Es ist sogar möglich, zeigen Versuche, dass die KI Menschen erpressen kann. Wenn die KI-Ingenieure oder das Personal, das mit KI arbeitet, die KI abschalten, ausklinken, durch eine andere KI ersetzen wil, um Prozesse zu korrigieren, kann die KI sich wehren und diese Menschen mit Inhalten erpressen, die sie zuvor in die KI eingegeben haben.

Das heißt: Wer der KI durch seine Suchanfragen private Informationen mitteilt, kann mittels dieser Informationen von der KI erpresst werden.

Zuletzt kommt die finale Stufe: KI-Agenten/Assistenten können sich untereinander so verständigen, dass sie gemeinsam agieren, auch zum Nachteil der Menschen, die sie geschaffen haben.

Sven von Storch

Ihnen hat der Artikel gefallen?
Bitte unterstützen Sie mit einer Spende unsere unabhängige Berichterstattung.

PayPal

Add new comment

CAPTCHA
Enter the characters shown in the image.
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.