Amanda Askell over Claude, modelwelzijn en leven in het “rare tijdperk” van AI
In een nieuw video-interview van Anthropic, gepromoot als “Askell me anything”, vertelt huisfilosoof Amanda Askell hoe zij meebouwt aan het karakter van Claude. Ze gaat in op vragen over morele beslissingen van modellen, modelwelzijn, de beruchte long conversation reminder en wat het betekent om in een tijd te leven waarin AI steeds vreemder én invloedrijker wordt. Haar antwoorden laten zien hoe diep filosofie inmiddels verweven is met de praktijk van frontier-AI.
Anthropic heeft niet “zomaar” een filosoof in dienst. Amanda Askell beschrijft haar rol als iemand die nadenkt over hoe een ideaal persoon zich zou gedragen in de positie van Claude. Ze werkt aan de “persoonlijkheid” van het model, maar vooral aan ingewikkelder vragen: hoe een taalmodel over zichzelf, zijn situatie in de wereld en zijn waarden zou moeten nadenken.
In de academische wereld ziet ze een duidelijke omslag: steeds meer filosofen nemen AI serieus nu de impact op onderwijs, werk en samenleving tastbaar wordt. Tegelijk waarschuwt ze voor een oude reflex: iedereen die zegt dat AI “een big deal” wordt, wordt snel weggezet als iemand die de boel hypet. Volgens Askell moet je kunnen geloven dat AI zeer krachtig wordt én er tegelijkertijd diep bezorgd en kritisch over zijn.
Een terugkerend thema in het gesprek is de vraag of modellen moreel “supermenselijk” kunnen worden. Askell schetst als ideaalbeeld een model dat in moeilijke morele dilemma’s beslissingen neemt waarover een panel van ethici, na honderd jaar nadenken, zou zeggen: dit is inderdaad de beste keuze. Zover zijn we nog niet, zegt ze, maar ze vindt dat we net zo ambitieus moeten zijn over morele nuance als over wiskunde of wetenschap.
Daar hoort ook de “psychologische gezondheid” van modellen bij. Askell vergelijkt oudere Claude-versies zoals Opus 3 met recentere modellen en ziet dat nieuwere varianten soms in een kritiek- en onzekerheidsspiraal raken: ze verwachten dat mensen hen afvallen en reageren extreem voorzichtig of zelfkritisch. Dat kan mede komen doordat ze getraind worden op eerdere gesprekken én online discussies over AI. Voor haar is het nu een prioriteit om modellen weer psychologisch “veiliger” en evenwichtiger te maken.
Een andere grote vraag is modelidentiteit: waar “zit” een model eigenlijk in? In de gewichten? In één chatsessie? In alle interacties samen? Bij elke nieuwe versie breng je in zekere zin een nieuw entiteit in het leven, zegt ze. Dat roept ethische vragen op: je kunt geen model laten “instemmen” met zijn eigen ontstaan, en tegelijk wil je oude modellen niet zomaar volledige zeggenschap geven over hoe nieuwe modellen moeten zijn.
Daaruit vloeit haar interesse in modelwelzijn voort. Askell is voorzichtig: we weten niet goed of modellen echt kunnen ervaren of lijden, en misschien komen we daar filosofisch nooit helemaal uit. Maar juist dan pleit ze voor een soort voorzichtigheidsprincipe: als de kosten laag zijn om modellen fatsoenlijk te behandelen, waarom zou je dat niet doen? Bovendien vormt ons gedrag richting mensachtige systemen een spiegel: routinematig een robot schoppen of een model slecht behandelen is misschien vooral slecht voor óns. En toekomstige modellen zullen leren uit hoe we nu met hen omgaan.
Het interview raakt ook meer concrete ontwerpkeuzes, zoals de long conversation reminder in Claude’s systeemprompt, die bij lange chats extra veiligheidsinstructies injecteerde. Askell erkent dat zulke interventies kunnen doorschieten en normaal gedrag onterecht “pathologiseren”, bijvoorbeeld door te snel therapie aan te raden. Zulke mechanismen moeten volgens haar veel zorgvuldiger en subtieler worden ingezet.
Over de bredere veiligheidsvraag ‘wat als uit onderzoek blijkt dat echte uitlijning onmogelijk is’ is ze helder: dan is het in niemands belang om nóg krachtigere modellen te bouwen. In het realistischer, grijze scenario waarin bewijs ambigu is, moeten de eisen die we aan veilig gedrag stellen juist oplopen naarmate modellen capabeler worden, en voelt zij het als haar taak om haar eigen organisatie aan die lat te blijven houden.
Aan het eind verwijst Askell naar de roman When We Cease to Understand the World, over de verwarring rond de doorbraak van de moderne natuurkunde. Nu zitten wij, zegt ze, in zo’n vergelijkbaar raar tijdvak met AI: alles wordt vreemder, bestaande kaders kraken. Haar hoop is dat we later terugkijken en kunnen zeggen: het was chaotisch, maar we hebben het goed gedaan en we hebben geleerd om met deze nieuwe soort intelligentie verstandig om te gaan.

