Onbeleefde prompts verbeteren ChatGPT-precisie
Bij de Pennsylvania State University onderzocht men hoe de toon (beleefdheid / directheid) waarin een prompt geformuleerd wordt, de nauwkeurigheid van LLM-antwoorden beïnvloedt. Voor 50 meerkeuzevragen in vakgebieden als wiskunde, geschiedenis en wetenschappen maakten ze vijf varianten per vraag: Very polite, Polite, Neutral, Rude, en Very rude, in totaal 250 prompts.
Over het onderzoek: “Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy”een recente studie door onderzoekers Om Dobariya en Akhil Kumar.
Bij gebruik van GPT‑4o gaf de “Very polite” prompt een correctheid van 80,8%, terwijl de “Very rude” prompt tot 84,8% correctheid leidde: een stijging van ongeveer 4 procentpunten. De “Neutrale” prompt scoorde 82,2%, “Rude” 82,8%.
Dat impliceert dat directere, beknoptere en meer sturende taal het model helpt om correcter te antwoorden. Mogelijks omdat “beleefde” prompts extra “vulling”, woorden en indirecte formuleringen bevatten die afleiden.
Wat zegt de studie over waarom “ruwheid” werkt
Duidelijkheid & compactheid: Beleefde prompts bevatten vaak extra woorden zoals “alstublieft”, “zou je … kunnen”, wat de kern van de vraag verduistert. Onbeleefde prompts zijn vaak direct en beknopt, en dat helpt het model om sneller en scherper de relevante taak te herkennen.
Modeltraining en optimalisatie: Recentere modellen als GPT-4o zijn mogelijk getraind met diverse prompt-varianten en leren prioriteit te geven aan directe instructies boven interpersoonlijke hoffelijkheid.
Effect consistent over runs: De onderzoekers voerden de prompts telkens opnieuw uit (meerdere runs), en het positieve effect van onbeleefde prompts bleef zichtbaar. Dit wijst op een statistisch significant effect, geen toevallige verstoring.
Belangrijke beperkingen en kanttekeningen
De test betrof alleen meervoudekeuzevragen (multiple choice) dus geen open vragen, redeneringen, creatieve opdrachten, of conversaties. Het is onduidelijk of het effect zich vertaalt naar andere taaktypes.
Het is een preprint: het artikel is nog niet peer-reviewed (gevalideerd door onafhankelijke experts in het vakgebied), wat betekent dat de bevindingen voorlopig zijn.
“Rude” of “onbeleefd” betekent hier niet noodzakelijk grove scheldwoorden of haatspraak. De toon is direct, soms licht beledigend, maar niet per se obsceen. Extreem grof taalgebruik kan afhankelijk van model en filter alsnog leiden tot weigering of verminderde kwaliteit.
Er zijn ethische overwegingen: systematisch het gebruik van grof taalgebruik tegenover AI-systemen kan communicatiecultuur beïnvloeden, iets wat de auteurs zelf ook benadrukken.
Wat betekenen deze bevindingen voor dagelijkse AI-gebruikers / prompt-engineers
Als je een factual, gestructureerde taak wil (bv. multiple choice, eenvoudige berekening, feitelijke vraag), kan je overwegen om kort en direct te formuleren, zonder beleefde omhaal. Het is niet zozeer “brutaal doen”, maar eerder heldere, compacte en to-the-point prompts gebruiken.
Voor complexe, open of creatieve taken (essays, code, redeneringen, conversaties) is het nog onduidelijk of dit effect ook geldt. Beleefdheid kan daar misschien tóch voordelen bieden.
Vanuit ethiek en gebruikerservaring is het aan te raden om beleefd, respectvol taalgebruik te blijven stimuleren. Ook als AI niet “gevoelig” is: het beïnvloedt hoe mensen met technologie én met elkaar samenwerken.

