AI blijkt verrassend sterke juridische tutor in Stanford-test
Een nieuwe studie van Stanford Law School toont hoe ver AI-systemen zijn geëvolueerd als hulpmiddel in het onderwijs. In een blinde test verkozen professoren contractenrecht de antwoorden van AI-modellen in ongeveer driekwart van de gevallen boven die van collega-professoren. De studie onderstreept het potentieel van AI als tutor, maar maakt tegelijk duidelijk dat menselijk toezicht cruciaal blijft.
Professoren kiezen opvallend vaak voor AI
Een nieuwe studie van Stanford Law School geeft de discussie over AI in het hoger onderwijs een opvallende wending. Niet studenten, maar professoren contractenrecht zelf moesten in een blinde test beoordelen welke antwoorden het best waren op typische vragen uit kantooruren. De uitkomst was opmerkelijk: in ongeveer 75 procent van de vergelijkingen gaven de beoordelaars de voorkeur aan antwoorden van AI-systemen boven die van menselijke collega’s.
De studie, Law Professors Prefer AI Over Peer Answers, onderzocht niet of AI simpele juridische weetjes kan reproduceren. De onderzoekers kozen bewust voor contractenrecht, een domein waarin goede antwoorden vaak afhangen van nuance, redenering en pedagogische helderheid. Het ging om vragen zoals studenten die aan een docent zouden stellen tijdens office hours: open, contextgevoelig en zelden terug te brengen tot één mechanisch juist antwoord.
Contractenrecht als stresstest voor AI
Voor het onderzoek werkten zestien professoren van veertien Amerikaanse rechtenfaculteiten mee. Zij formuleerden samen veertig representatieve vragen en schreven daar zelf antwoorden op. Vervolgens werden ook antwoorden gegenereerd door Google’s Gemini 2.5 Pro en NotebookLM. De professoren beoordeelden daarna 2.918 geanonimiseerde vergelijkingen, zonder te weten of een antwoord afkomstig was van een collega of van een AI-model.
De resultaten waren duidelijk. De AI-antwoorden haalden gemiddeld een winrate van 75,33 procent. Slechts één professor wist ongeveer gelijke tred te houden met de modellen. Opvallend was bovendien dat AI-antwoorden minder vaak werden aangemerkt als mogelijk schadelijk voor het leerproces: 3,53 procent tegenover 12,06 procent bij antwoorden van professoren.
Van examenkennis naar echte begeleiding
Daarmee gaat deze studie een stap verder dan eerdere tests waarin AI-modellen juridische examens of bar exams aflegden. Een examen meet vooral of een systeem kennis kan reproduceren en toepassen binnen een afgebakend kader. Deze Stanford-test komt dichter bij de praktijk van onderwijs: een student stelt een onduidelijke of zoekende vraag, en de tutor moet niet alleen correct antwoorden, maar ook uitleggen, structureren en verder denken.
De onderzoekers breidden de analyse ook uit met een AI-beoordelaar om meer modellen met elkaar te vergelijken. In die tweede ronde werden verschillende systemen gerangschikt, waarbij alle geteste AI-modellen gemiddeld beter scoorden dan de menselijke docenten. Die uitbreiding is interessant, maar verdient voorzichtigheid: een AI-model als jurylid is niet hetzelfde als beoordeling door menselijke experts.
Krachtige aanvulling, geen vervanging
De belangrijkste conclusie is dan ook niet dat professoren overbodig worden. De studie toont vooral dat AI inmiddels sterk genoeg is om een serieuze rol te spelen in complexe leeromgevingen. Voor studenten kan dat betekenen dat ze sneller extra uitleg krijgen, ook buiten de lesuren. Voor universiteiten betekent het dat ze moeten nadenken over duidelijke regels, kwaliteitscontrole en transparantie.
AI kan juridische begeleiding toegankelijker maken, maar het blijft riskant om overtuigend klinkende antwoorden zonder controle te gebruiken. Zeker in het recht kan een kleine nuance het verschil maken tussen een bruikbare analyse en een verkeerde conclusie. De Stanford-studie laat dus vooral zien dat AI als tutor volwassen begint te worden - niet als vervanger van de docent, maar als krachtige aanvulling op juridisch onderwijs.

