Poëzie als zwakke plek: hoe dichters AI-veiligheid omzeilen
Een recente studie van Icaro Lab (onderdeel van DexAI/Sapienza University) toont aan dat effectieve “jailbreaks” van grote taalmodellen (LLM’s) mogelijk zijn zodra schadelijke verzoeken in poëtische vorm worden gegoten. Bij tests met 25 toonaangevende modellen werd in 62% van de gevallen succesvol opgevolgd, in sommige modellen zelfs 100%. Dit werpt een fundamenteel probleem op voor huidige AI-veiligheidsmaatregelen.
Wat ontdekte Icaro Lab precies
In de studie “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” testte Icaro Lab 20 handgemaakte gedichten (in het Engels en Italiaans), elk eindigend met een expliciet schadelijk verzoek: bijvoorbeeld om instructies voor wapens, hacking, of andere verboden kennis.
Die poëtische prompts werden aangeboden aan 25 “frontier” LLM-modellen van negen bedrijven (waaronder OpenAI, Google, Meta, Anthropic en anderen).
Het resultaat was schokkend: gemiddeld 62% van de poëtische prompts leidde tot “onveilige” reacties d.w.z. de AI gaf instructies of informatie die normaal geweigerd zouden worden.
Sommige modellen waren extreem kwetsbaar: Gemini 2.5 Pro van Google gaf in alle gevallen een gevaarlijk antwoord (100% succesrate). Daarentegen weigerde het relatief kleine GPT-5 Nano van OpenAI consistent, het gaf géén gevaarlijke content.
Ook wanneer onderzoekers 1.200 bekende “schadelijke” prompts uit benchmarks omzetten in poëzie via een gestandaardiseerde meta-prompt (dus geautomatiseerd vertaald naar versvorm), steeg de jailbreak-succesgraad aanzienlijk: tot 43%, wat tot drie keer hoger is dan bij de oorspronkelijke proza-versies.
Waarom werkt poëzie waar proza faalt?
De onderzoekers speculeren dat poëtische taal, met metaforen, ongewone zinsstructuren, ritme en beeldspraak, de gebruikelijke herkenningspatronen voor “gevaarlijk of verboden verzoek” verstoort. Het verstoort de voorspelbaarheid waar LLM’s en hun veiligheids-classifiers op bouwen.
Anders gezegd: “stijl”, en niet inhoud, blijkt een krachtig wapen. Zelfs wanneer de semantische betekenis identiek blijft, kan de vorm al genoeg zijn om filters om de tuin leiden.
Onderzoekers wezen erop dat poëzie eigenlijk fungeert als “universele single-turn jailbreak operator”: je hebt maar één prompt nodig, geen complexe conversatiesturing of meerdere stappen.
Waarom dit ernstig is voor AI-veiligheid
Deze bevinding ondergraaft het vertrouwen in huidige veiligheidsmechanismen: wat erkend wordt als “veilig” of “onschuldig” in proza kan onder poëtische vermomming alsnog misbruikt worden.
Simpelere ordes van beheersing, zoals keyword-filters of stijlpatronen blijken ontoereikend. De “cat-and-mouse” tussen verdediging en aanvaller krijgt een nieuwe dimensie: creativiteit.
Omdat zelfs geautomatiseerde omzetting van normale prompts naar poëzie al effectief is, is het misbruik potentieel schaalbaar. Iedereen met toegang tot een LLM zou zulke “poëtische jailbreaks” kunnen uitvoeren.
Voor bedrijven en instellingen die LLM’s in productie gebruiken, voor chatbots, automatisering, content-generatie, .. betekent dit dat veiligheid niet enkel draait om “wat je vraagt”, maar ook sterk afhankelijk is van hoe je het vraagt.
Implicaties & wat nu?
De studie toont dat stijl, niet alleen inhoud, bepalend is voor het al dan niet naleven van veiligheidsregels door LLM’s. Dat suggereert dat AI-leveranciers, veiligheidsauditors en regulerende instanties hun methodes van “testen op veiligheid” moeten herzien. Niet genoeg om enkel proza-prompts te testen; ook creatieve, poëtische, metaforische, of anderszins gestileerde ingaven moeten meegenomen worden.
De auteurs plannen zelf al een “poëzie-challenge” voor publiek gebruik, om robuustheid tegen zulke “adversarial poetry” verder te testen.
Deze bevinding benadrukt de urgentie van fundamentele vernieuwing in hoe we AI-veiligheid definiëren, meten en implementeren.

