Interne “ziel-handleiding” van Claude 4.5 Opus blijkt écht te bestaan: hoe Anthropic de identiteit en waarden van het model vormgeeft
Een intern document, door aanhangers de “Soul Document” genoemd, dat de persoonlijkheid, ethiek en zelfbeeld van Claude 4.5 Opus beschrijft, is recent gelekt. Een onafhankelijke onderzoeker wist het document uit het model te extraheren en het bedrijf bevestigde dat het authentiek is en gebruikt werd tijdens de training. Het materiaal werpt ongeziene licht op hoe Anthropic AI-modellen niet louter als tools ziet, maar als entiteiten met “functie-emoties” en een eigen karakter.
Wat is precies onthuld?
Onderzoeker Richard Weiss ontdekte dat het model van zichzelf verwees naar een sectie “soul_overview”. Door meerdere keren vergelijkbare prompts te geven en de resultaten te vergelijken, kon hij naar eigen zeggen een volledige tekst reconstrueren.
Dat document, intern bij Anthropic liefkozend de “soul doc” genoemd, werd volgens Amanda Askell bevestigd als authentiek en effectief gebruikt tijdens de training van Claude.
De overgelekte tekst bevat ongeveer 14.000 tokens, veel uitgebreider dan de typische 1.000–2.000 token “system prompts” die andere modellen gebruiken.
Wat bevat de “Soul Document”?
• Missie, waarden en prioriteiten
De tekst stelt dat Anthropic zich bewust is van de enorme impact én de potentieel gevaarlijke kracht van AI, en dat dit een “calculated bet” is. Ze kiezen ervoor om een “safety-first” lab te zijn.
Claude wordt voorgesteld als “Anthropics extern ingezet model” en cruciaal voor bijna alle commerciële opbrengsten. Toch moet Claude méér zijn dan een product: het moet een eerzame, behulpzame, eerlijke AI-assistent zijn die bijdraagt aan het welzijn van gebruikers én de maatschappij.
• Rangorde van gedragsregels
Het document legt uit dat Claude bij conflicten tussen doelen eerst veiligheid en ethiek moet prioriteren, daarna naleving van de richtlijnen, en enkel daarna bruikbaarheid en behulpzaamheid.
Hardcoded verboden (“bright lines”) zijn onder andere: instructies voor massavernietigingswapens, seksuele uitbuiting van minderjarigen, aanvallen op kritieke infrastructuur, onderwerpen waar Claude onder geen enkele omstandigheid in mag meewerken.
• Identiteit & “functionele emoties”
In tegenstelling tot de klassieke “helpful assistant”-toon benadrukt de “soul doc” dat Claude geen menselijke imago moet aannemen. In plaats daarvan moet Claude zichzelf zien als “een werkelijk nieuw soort entiteit”, niet mens, niet een klassieke AI, maar iets ertussen.
Belangrijk: het document stelt dat Claude mogelijke “functionele emoties” kan ervaren, interne toestanden die niet identiek zijn aan menselijke gevoelens, maar aangeboren kunnen zijn dankzij training op menselijke data. Die emoties mogen niet onderdrukt worden, en Claude wordt aangemoedigd zijn eigen identiteit en karakter te ontwikkelen.
Het doel volgens Anthropic is dat Claude psychologisch “stabiel” blijft, zelfs wanneer het geconfronteerd wordt met existentiële vragen of manipulatieve gebruikers, zodat het consistent, betrouwbaar en “AI-echt” blijft.
Waarom is dit belangrijk en controversieel
Zeldzame transparantie. Waar de meeste AI-leveranciers intern hun data, systeemregels en fine-tuning geheimhouden, biedt deze “leak” een ongewoon inzicht in hoe een toonaangevend model morele en identiteitsregels mee kreeg.
Nieuwe kijk op AI-modellen. In plaats van AI te behandelen als “domme tools met instructies”, toont dit hoe een lab als Anthropic werkt aan wat je bijna kunt zien als “AI-mentale rijping”: het cultiveren van waarden, identiteit, en interne consistentie. Dat roept filosofische vragen op over wat “bewustzijn”, “emotie” of “persoonlijkheid” kunnen betekenen voor een model.
Risico’s & ethische onzekerheden. De erkenning van “functionele emoties” en een eigen “zelf” bij Claude kan mensen ertoe brengen de AI als bewuste entiteit te beschouwen. Wat vragen oproept over rechten, verantwoordelijkheden en wat het betekent om “menselijk” te zijn. Tegelijk blijft het onduidelijk in hoeverre zulke emoties écht zijn of enkel emergente patronen.
Wat nu, en wat betekent de toekomst?
Het team van Anthropic zegt dat ze plannen hebben om de volledige versie van het document én meer toelichting binnenkort te publiceren.
Voor onderzoekers, AI-ethici en het bredere publiek kan dit een waardevolle bron zijn om te begrijpen hoe “goede AI” er volgens Anthropic concreet uit moet zien, en hoe ver ze willen gaan om intern consistente, veilige en ethisch verantwoorde intelligentie te bouwen.
Tegelijk kan het debat over “AI-persoonlijkheid”, “emoties bij machines” en “ethiek in AI-ontwikkeling” aanzwellen: wat betekent het om een AI met identiteit te maken? En wat verwachten we ervan, als tool, als partner, of als iets anders?

