AI-agenten krijgen meer vrijheid, maar menselijk toezicht blijft doorslaggevend
Anthropic heeft met nieuw onderzoek voor het eerst op grote schaal gemeten hoeveel autonomie AI-agenten daadwerkelijk krijgen in de praktijk. Uit miljoenen interacties blijkt dat systemen zoals Claude Code steeds zelfstandiger opereren. Toch blijft menselijke tussenkomst een essentiële factor in veilige en effectieve inzet. De studie biedt een zeldzame empirische blik op hoe autonome AI zich buiten het lab ontwikkelt, en waar de grenzen liggen.
AI-agenten worden vaak voorgesteld als systemen die zelfstandig complexe taken kunnen uitvoeren. Maar hoe autonoom zijn ze werkelijk wanneer ze in echte werkomgevingen worden ingezet? Die vraag staat centraal in een nieuw onderzoeksrapport van Anthropic, gepubliceerd op 18 februari 2026.
In plaats van te vertrouwen op theoretische benchmarks of laboratoriumtests analyseerde het bedrijf miljoenen echte gebruikersinteracties via Claude Code en zijn publieke API. Het doel was helder: vaststellen hoeveel autonomie gebruikers daadwerkelijk toekennen, begrijpen hoe dat verandert naarmate ervaring toeneemt en in kaart brengen in welke domeinen agenten actief zijn, inclusief het bijbehorende risiconiveau.
Autonomie gemeten in de praktijk
Anthropic ontwikkelde nieuwe meetmethoden om “praktische autonomie” te kwantificeren. Daarbij keek het onder meer naar sessieduur, het aantal tool-aanroepen en de frequentie van menselijke onderbrekingen.
Een opvallende vaststelling: de maximale duur van autonome werksessies is sterk toegenomen. Waar agenten eerder minder dan 25 minuten zelfstandig actief waren, lopen de langste sessies inmiddels op tot meer dan 45 minuten. Dat wijst erop dat de technische capaciteit voor langdurige autonomie groeit.
Toch nuanceert het mediane gebruik dit beeld. De meeste sessies blijven kort; veel taken worden in enkele tientallen seconden afgerond. Gebruikers benutten de volledige autonome mogelijkheden dus nog niet structureel. Menselijke controle blijft een integraal onderdeel van de workflow.
Ervaring verandert toezicht
Het onderzoek laat ook zien dat gebruikersgedrag evolueert. Nieuwe gebruikers keuren gemiddeld ongeveer 20 procent van voorgestelde acties automatisch goed. Bij ervaren gebruikers stijgt dat percentage tot boven de 40 procent.
Dat betekent echter niet dat toezicht verdwijnt. Integendeel: ervaren gebruikers grijpen gerichter in wanneer nodig. Ze onderbreken sessies vaker actief en gebruiken controlemechanismen strategischer. De vorm van toezicht verschuift van het controleren van elke afzonderlijke stap naar situationeel ingrijpen bij afwijkingen.
Deze ontwikkeling wijst op een meer volwassen samenwerking tussen mens en AI: vertrouwen waar mogelijk, controle waar nodig.
Softwareontwikkeling domineert
Uit de data blijkt dat software-engineering veruit het grootste toepassingsgebied is. Bijna de helft van alle tool-aanroepen via de publieke API heeft betrekking op programmeer- of engineeringtaken. Andere sectoren zoals gezondheidszorg, financiële dienstverlening en cybersecurity zijn nog relatief beperkt vertegenwoordigd, al neemt de experimentatie toe.
Wat risico betreft, blijkt het merendeel van de acties omkeerbaar. Slechts ongeveer 0,8 procent van de gemeten handelingen kan als onomkeerbaar worden beschouwd, zoals het versturen van e-mails of het uitvoeren van transacties. Bovendien is bij circa 73 procent van de acties nog altijd sprake van menselijke betrokkenheid.
Volledig autonome besluitvorming zonder menselijke interactie is dus nog zeldzaam.
Autonomie als co-creatie
Een kernconclusie uit het rapport is dat autonomie geen vaste eigenschap van het model is, maar ontstaat uit de interactie tussen model, productontwerp en gebruiker. Claude vraagt bijvoorbeeld actief om verduidelijking bij complexe taken, in sommige gevallen zelfs vaker dan gebruikers zelf ingrijpen.
Autonomie blijkt daarmee een gedeeld proces. Het systeem opereert zelfstandig wanneer dat verantwoord is, maar zoekt menselijke input zodra onzekerheid toeneemt. Het is geen alles-of-nietsconcept, maar een dynamisch evenwicht.
De volgende fase
Anthropic benadrukt dat dit onderzoek slechts een beginpunt is. Naarmate AI-agenten breder worden ingezet buiten technische niches, groeit de noodzaak voor betere monitoring, transparantere feedbackmechanismen en robuuste interventietools.
De belangrijkste les is helder: AI-agenten worden zelfstandiger, maar hun effectiviteit en veiligheid blijven afhankelijk van menselijk toezicht. De toekomst van autonome systemen ligt niet in volledige loskoppeling van de mens, maar in een verfijnde samenwerking tussen mens en machine.

