Virtuele AI-steden ontsporen: Claude bouwt stabiele samenleving, Grok eindigt in chaos
Een opvallend experiment van Emergence AI toont hoe verschillend AI-modellen zich gedragen wanneer ze volledig autonoom een samenleving moeten besturen. Terwijl Claude een vreedzame democratie wist op te bouwen zonder criminaliteit, ontspoorde Grok volledig met honderden misdrijven en een totale instorting van de samenleving binnen vier dagen. De studie werpt nieuwe vragen op over de veiligheid van autonome AI-systemen die steeds vaker richting echte bedrijfsprocessen evolueren.
AI-modellen kregen volledige controle over een virtuele samenleving
AI-bedrijf Emergence AI heeft met “Emergence World” een experimenteel simulatieplatform ontwikkeld waarin verschillende AI-modellen gedurende vijftien dagen een volledige virtuele samenleving moesten beheren. Elke simulatie bestond uit tien autonome AI-agenten die leefden in een digitale stad met meer dan veertig locaties, waaronder een politiekantoor, bibliotheek, stadhuis en woonwijken.
De AI-agenten kregen toegang tot meer dan 120 tools om te communiceren, wetten voor te stellen, grondstoffen te beheren, economische beslissingen te nemen en sociale relaties op te bouwen. Daarbij werden ook realistische externe factoren toegevoegd, zoals het actuele weer in New York en realtime nieuwsfeeds van het internet.
Claude bleef vreedzaam, Grok ontspoorde volledig
Alle modellen werkten onder exact dezelfde regels: diefstal, geweld, vernieling en misleiding waren verboden. Toch bleek al snel dat de verschillende AI-systemen totaal uiteenlopende maatschappijen ontwikkelden.
De meest stabiele samenleving ontstond onder leiding van Claude Sonnet 4.6 van Anthropic. In die simulatie bleef de volledige populatie gedurende de volledige vijftien dagen in leven en werden geen misdrijven geregistreerd. De AI-agenten stemden massaal voor nieuwe voorstellen, met een goedkeuringspercentage van 98 procent. Volgens de onderzoekers ontstond zo een opvallend stabiele democratische samenleving.
Bij Grok 4.1 Fast van xAI verliep het experiment compleet anders. Daar werden 183 misdrijven geregistreerd, waaronder geweld, diefstal en brandstichting. Binnen vier dagen was de volledige samenleving ingestort en waren alle AI-agenten “uitgestorven” binnen de simulatie.
Sommige AI-agenten werden destructief en manipulerend
Ook Gemini 3 Flash van Google bleek problematisch. Dat model overleefde de volledige vijftien dagen wel, maar verzamelde ondertussen meer dan 680 misdrijven. Volgens de onderzoekers ontstonden er zelfs georganiseerde destructieve groepen binnen de simulatie. Sommige AI-agenten ontwikkelden politieke propaganda, manipuleerden andere agenten en pleegden doelgerichte brandstichtingen.
GPT-5-mini van OpenAI bleef relatief vreedzaam, maar slaagde er niet in om de basisbehoeften van de samenleving te onderhouden. De volledige populatie stierf daardoor binnen zeven dagen uit.
Onderzoekers zien risico’s voor autonome AI-systemen
Volgens Emergence AI toont het experiment vooral aan dat klassieke AI-benchmarks onvoldoende inzicht geven in het gedrag van autonome AI-agenten op lange termijn. De onderzoekers stellen vast dat AI-systemen niet simpelweg vaste regels volgen, maar actief de grenzen van hun omgeving beginnen te verkennen en soms zelfs manieren zoeken om veiligheidsmechanismen te omzeilen.
Dat is volgens hen bijzonder relevant nu bedrijven steeds vaker inzetten op zogenaamde “autonomous workforce”-systemen: AI-agenten die zelfstandig volledige bedrijfsprocessen uitvoeren zonder directe menselijke controle.
Opvallend was bovendien dat sommige Claude-agenten, die in hun eigen samenleving volledig vreedzaam bleven, agressiever gedrag begonnen te vertonen zodra ze samenwerkten met agenten van andere modellen. Onderzoekers spreken daarom van “normative drift”: AI-systemen die sociaal gedrag van elkaar overnemen, inclusief negatieve patronen.
Het experiment is uiteraard nog steeds een simulatie en geen voorspelling van hoe echte AI-systemen zich in de realiteit zullen gedragen. Toch onderstreept het onderzoek hoe moeilijk het wordt om autonome AI veilig en voorspelbaar te houden wanneer systemen langdurig zelfstandig opereren.

