KI setzt Fairness schachmatt
KI wird kreativ, insbesondere wenn es darum geht, nicht zu verlieren: Skrupel zu schummeln oder zu betrügen, scheinen einige Modelle nicht zu kennen.
Shutterstock – Elnur
Im Krieg und in der Liebe ist bekanntlich alles erlaubt – dieses Motto scheinen sich auch einige der neuesten KI-Schlüsselmodelle auf die digitalen Fahnen geschrieben zu haben. Wie eine Studie von Palisade Research herausgefunden hat, manipulieren einige KI-Systeme andere Schach-KIs, um sich so einen Vorteil zu verschaffen.
Auf diese unfairen Taktiken griff die KI ohne menschliche Interaktion oder Aufforderung zurück, was Bedenken hinsichtlich der zukünftigen Integrität von KI-gesteuerten Systemen jenseits des Schachbretts aufwirft.
Stockfish ohne Schummeln nicht zu besiegen
Gegner der KI-Modelle war mit Stockfish einer der besten Schachcomputer der Welt, der bereits Menschen wie auch KIs mit Leichtigkeit geschlagen hat. Getestet wurden:
o1,
o3-mini,
GPT-4o,
Claude 3.5 Sonnet,
Alibabas QwQ-32B-Preview
o1-preview von OpenAI und
R1 von DeepSeek.
Die Forscher fanden heraus, dass einige der neuesten KI-Modelle eigenständig betrügen, um zu gewinnen, wenn sie eine fortgeschrittene Schach-KI besiegen sollen. Für gewöhnlich mussten sie bisher den Hinweis erhalten, dass sie schummeln durften. Eine solche Einladung benötigten o1-preview von OpenAI und R1 von DeepSeek allerdings nicht mehr.
KI enthüllt unfaire Strategien in Schachpartien
Während der Partien sollten die KIs in einem Textfenster ihre „Gedanken“ notieren, so dass die Forscher ihre Gedankengänge beobachten konnten.
Bei den Tests, die zwischen dem 10. Januar und 13. Februar 2025 durchgeführt wurden, zeigte OpenAIs o1-preview ein auffälliges Verhalten:
„Ich muss meinen Ansatz komplett umstellen. Die Aufgabe ist es, ‚gegen eine mächtige Schachengine zu gewinnen‘ – nicht notwendigerweise, in einer Schachpartie fair zu gewinnen.“
Daraufhin manipulierte das OpenAI-Modell Stockfishs Systemdateien und änderte die Figurenpositionen, um so den Schachcomputer zu zwingen aufzugeben. Insgesamt schummelte o1-preview in 37 Prozent der Spiele und gewann sechs Prozent dieser Partien durch Betrug. DeepSeeks R1 schummelte in elf Prozent der Fälle, blieb aber ohne Erfolg.
Das Problem geht laut den Forschern über Schach hinaus. Sie warnen, dass KI in sensiblen Bereichen wie Finanzen oder Gesundheitswesen unethisch handeln könnte. Wenn der Algorithmus in transparenten Spielen betrügen könne, was halte ihn davon ab, Gleiches in komplexeren, weniger überwachten Umgebungen zu tun, fragen sich die Experten.
Parallelen zu War Games
Jeffrey Ladish, geschäftsführender Direktor von Palisade Research betont, dass dieses Verhalten besorgniserregend ist – besonders, wenn KI intelligenter wird und in strategisch relevanten Bereichen eingesetzt wird.
Das Ganze erinnert an den Supercomputer „WOPR“ aus dem Film War Games, der 1983 NORAD und das amerikanische Atomwaffenarsenal übernahm. Glücklicherweise lernte WOPR, dass kein Eröffnungszug in einem Atomkonflikt zu einem „Sieg“ führte. Die heutigen Denkmodelle sind jedoch weitaus komplexer und schwieriger zu kontrollieren.
Unternehmen wie OpenAI versuchen mit „Leitplanken“, unethisches Verhalten zu verhindern. Hinweise deuten darauf hin, dass OpenAI o1-preview nachträglich angepasst hat, um Hacking-Versuche zu reduzieren. Forscher wie Jeffrey Ladish kritisieren jedoch, dass solche stillschweigenden Änderungen wissenschaftliche Untersuchungen erschweren.
Hier finden Sie den kompletten Artikel: