21. März 2026

Autonome Jailbreak Agenten fi2

Autonome Jailbreak-Agenten: Wenn KI > KI hackt

LRMs erreichen 97 % Erfolgsquote bei autonomen Jailbreaks. Warum RLHF versagt, wie Policy Puppetry Instruktions-Hierarchien aushebelt und wie Sie Ihre…