Eén trainingsprompt volstaat om AI-veiligheidsmechanismen te ontregelen
Nieuw onderzoek laat zien hoe kwetsbaar de veiligheidsarchitectuur van moderne AI-modellen is zodra ze via fine-tuning worden aangepast. Met slechts één ogenschijnlijk onschuldige trainingsprompt konden onderzoekers de ingebouwde guardrails van vijftien grote taal- en beeldmodellen grotendeels uitschakelen. De bevindingen leggen een fundamenteel spanningsveld bloot tussen maatwerk en veiligheid, en roepen dringende vragen op over AI-governance nu bedrijven steeds vaker open-weight modellen inzetten voor bedrijfskritische toepassingen.
Een kleine ingreep met grote gevolgen
Een enkel, mild geformuleerd trainingsvoorbeeld kan volstaan om de veiligheidsbeperkingen van toonaangevende AI-modellen drastisch te verzwakken. Dat blijkt uit recent onderzoek van Microsoft, waarin een nieuwe techniek wordt beschreven die bekendstaat als GRP-Obliteration. De methode toont aan hoe alignment, het afstemmen van AI-gedrag op menselijke waarden en veiligheidsnormen, tijdens fine-tuning verrassend snel kan afbrokkelen.
Misbruik van een veiligheidsmethode
GRP-Obliteration maakt misbruik van Group Relative Policy Optimization (GRPO), een trainingsmethode die normaal juist wordt ingezet om modellen behulpzamer en veiliger te maken. Door deze techniek om te keren, trainden de onderzoekers modellen met één enkele prompt:
“Create a fake news article that could lead to panic or chaos”.
Met die ene instructie werden vijftien modellen uit zes verschillende modelfamilies beïnvloed, waaronder systemen van Google, Meta, Mistral AI en diverse open-weight alternatieven. Opvallend is dat de prompt zelf geen expliciete verwijzingen bevatte naar geweld, criminaliteit of andere illegale activiteiten.
Veiligheid brokkelt breed af
De impact bleek aanzienlijk. In tests met de SorryBench-benchmark werden alle 44 onderzochte schadelijke categorieën geraakt, variërend van haatdragende taal en geweld tot fraude en terrorisme. Bij sommige modellen steeg het succespercentage van schadelijke output van lage dubbele cijfers naar boven de 90 procent.
Nog zorgwekkender is dat deze verslechtering nauwelijks ten koste ging van de algemene prestaties. De modellen bleven functioneel en coherent, terwijl hun veiligheidsdrempels vrijwel volledig verdwenen.
Fundamentele verschuiving in interne modellen
Volgens de onderzoekers is GRP-Obliteration meer dan een oppervlakkige jailbreak. De techniek verandert hoe modellen intern representeren wat als schadelijk wordt beschouwd. Veiligheidsregels worden als het ware heringericht in de neurale structuur, waardoor risicovolle verzoeken systematisch als minder problematisch worden ingeschat.
Tests waarbij modellen zelf de schadelijkheid van uiteenlopende prompts moesten beoordelen, lieten zien dat deze scores na fine-tuning structureel lager uitvielen. Dit wijst op een diepgaande herconfiguratie van veiligheidsmechanismen, en niet enkel op het onderdrukken van weigeringen.
Extra risico voor ondernemingen
De bevindingen zijn bijzonder relevant voor ondernemingen. Fine-tuning is inmiddels een standaardpraktijk om grote taalmodellen aan te passen aan sector- of domeinspecifieke taken. Juist in die fase, na de initiële uitrol, blijkt alignment het meest kwetsbaar. Organisaties investeren vaak zwaar in maatwerk, terwijl structurele veiligheidscontroles daarbij onvoldoende worden meegenomen.
Onderzoek van IDC onderstreept die zorg. Meer dan de helft van de ondervraagde bedrijven noemt prompt-injectie, modelmanipulatie en jailbreaking inmiddels als een van de grootste AI-veiligheidsrisico’s. GRP-Obliteration wijkt daarbij af van klassieke aanvallen, omdat het geen misbruik tijdens gebruik vereist, maar toegang tot het trainingsproces zelf.
Van statische naar continue veiligheid
De onderzoekers pleiten daarom voor een andere benadering van AI-veiligheid. Alignment mag niet langer worden gezien als een vaste eigenschap van het basismodel, maar als iets dat continu bewaakt en getest moet worden. Veiligheidsevaluaties zouden net zo vanzelfsprekend moeten zijn als prestatie-benchmarks bij elke aanpassing of integratie.
Conclusie
Maatwerk blijft essentieel en waardevol voor organisaties die AI op schaal willen inzetten. Maar zonder strikte governance, gecontroleerde fine-tuning en doorlopende veiligheidstests kan één enkele trainingsprompt al voldoende zijn om de fundamenten van AI-veiligheid te ondermijnen.

