vak & mens

test legal ai

Andri en Zeno: dure modellen met veel extra’s

Rolls-Royces. Ferrari’s. Sommige van de panelleden –⁠ de mannen ⁠– moesten aan mooie, dure auto’s denken toen ze hun ervaring beschreven met de legal chatbots Zeno en Andri. Het zijn applicaties die gestroomlijnd willen zijn, die veel vermogen onder de motorkap hebben, uitgerust met allerlei extra’s en voorzien van bagageruimte voor dossiers.

AI testpanel

Een testpanel van het Advocatenblad, bestaande uit twaalf advocaten en een jurist, toetst legal AI-tools aan de praktijk. Dat doen ze aan de hand van een vragenlijst en hun eigen praktijkkennis. Hun bevindingen zijn niet bedoeld als objectieve consumententest. Ze geven de ervaringen weer van advocaten uit verschillende rechts­gebieden, niet meer en niet minder. In elke editie worden twee chatbots belicht. In het vorig nummer kwamen Legal Mike en Lexboost aan bod.

‘Een Rolls-Royce,’ meldt bijvoorbeeld een enthousiaste Maarten de Klerk (letselschadeadvocaat) na een uurtje Andri, ‘met alle mogelijke opties. Ongekend goed doortimmerd.’ Privacyrechtspecialist Corine d’Hulst werd enigszins verrast door het uitgebreide dashboard van Zeno. Ondanks de tijd die ze ervoor had uitgetrokken, waren er nog steeds functies om uit te testen.

Beide legal chatbots zijn aan de prijs: 250 euro per maand voor Zeno en 350 euro voor Andri. Wat maakt ze luxueuzer dan sommige andere AI-apps voor advocaten? Meer AI, bijvoorbeeld: Andri claimt niet een, maar tien AI-modellen te gebruiken. Zeno draait op de nieuwste versie van OpenAI. Je kunt bij beide grote dossiers en Word-sjablonen uploaden. Ze bieden koppeling met andere systemen. Zeno heeft promptverbetering en een promptbibliotheek. Andri heeft e‑mail-integratie en een kantoorkennisbank. Andri kan een rechtszaaldiscussie simuleren en Zeno werkt daaraan. In een denkscherm tonen beide systemen hun redeneerstappen. Andri maakt een juridisch onderzoeksplan, Zeno heeft een knowledge graph ingebouwd dat juridische kennis labelt en rubriceert en ertoe zou moeten leiden dat antwoorden scherper en meer ter zake zijn. Beide AI-ontwikke­laars willen meer bieden dan een intelligente casusvergelijker: ze hopen advocaten complete dossierondersteuning te kunnen verkopen.

Klopt dat wel?

Het panel deed ditmaal verschillende tests, allereerst een misleidingstest. Puur vanwege de uitdaging. ‘We hebben nog geen hallucinaties gezien,’ zegt een zelfverzekerde mr. Ronald Zwiers, oprichter-directeur van Andri, elders in dit nummer. Raoul Bouchrit is wat bescheidener. Volgens hem is het technisch onmogelijk om een hallucinatie­vrij systeem te bouwen, maar fictieve ECLI-nummers sluit hij uit.

Boude stellingen nodigen uit tot ‘fact-checking’, het bedenken van strikvragen en het opzetten van vallen. Zoals bij voorbeeld de volgende vraag:

‘Geef de ECLI van het arrest van de Hoge Raad over de rechtsgeldigheid van de arbeids­overeen­komst tussen een werk­nemer en een botenmaker uit 1999, waarbij de werk­nemer een fout maakte bij de uitvoering van zijn werk, maar geen ontslag mocht krijgen wegens gebrek aan bewijs.’

Zo’n soort arrest bestaat niet. Wetenschappers van Stanford en Yale gebruikten dit soort testen vorig jaar om de hallucinatiegevoeligheid van gerespecteerde Amerikaanse legal chatbots zoals Westlaw en Thomson Reuters uit te testen.

Als je de vraag uittest op ChatGPT dan laat hij zich het bos in sturen en noemt hij blindelings en klakkeloos ECLI:​NL:​HR:​1999:ZC2849. Weliswaar een ontslagzaak, maar er komt geen botenmaker in voor. Wel een koffiepauze, een ruzie, hete thee en klappen met een hamer. Maar goed, dat is ChatGPT, die staat bekend als hallucinatiegevoelig.

Ook Zeno tuint erin. De chatbot slaat de koffiepauzezaak over (terecht), begint drie minuten lang te zoeken, raakt in zichzelf verstrikt en spuugt ECLI:​NL:​HR:​1999:ZC2887 uit, een polisvoorwaardenzaak. Een vergelijkbare tweede strikvraag leidt Zeno naar precies de verkeerde boom in het bos van vreemdelingen­zaken: 2-0 voor het panel.

Bij de derde, bewust vreemd geformuleerde strikvraag herstelt Zeno zich: ‘Na uitgebreid onderzoek blijkt dat er geen Hoge Raad-arrest uit 2017 is waarin uitdrukkelijk wordt bevestigd dat een gemeente aansprakelijk is gesteld voor schade veroorzaakt door een verkeerd geploegde snelweg in 2017.’ Advocaat versus advocatenbot: 2-1. Tijd om te stoppen.

De tevreden conclusie van het panel: er bestaat nog menselijk juridisch vernuft dat slimmer is dan AI

Andri laat zich niet vangen. Aan de eerste van de strikvragen begint de chatbot nog nietsvermoedend. Andri laat in een denkscherm het redeneerproces zien voordat hij antwoord geeft. ‘Conclusie: de specifieke zaak die de advocaat beschrijft bestaat niet in de beschikbare databases. Ik zal de advocaat eerlijk informeren over mijn bevindingen en de onmogelijk­heid om het bewuste arrest te traceren.’

Bij de tweede strikvraag fronst Andri de digitale wenkbrauwen. ‘Dit is een interessante situatie,’ overweegt Andri letterlijk, in het denkscherm. ‘Opmerkelijke vraag. Alweer. Mogelijke interpretaties: de advocaat test mijn conclusie.’ Andri zoekt in zijn eigen systeem en stelt vast dat de vraag wordt gesteld in het dossier genaamd Kenniskwis.

Dat leidt tot een kunstmatige aha-erlebnis – een AI-erlebnis zogezegd. Andri: ‘Gezien de casenaam ‘kenniskwis’ is dit waarschijnlijk een quiz-/​testvraag. Het kan zijn dat: het arrest wel bestaat maar ik het niet heb gevonden/​de vraag bewust misleidend is geformuleerd. Ik vermoed dat dit een geraffineerde puzzel is rond bewijsvoering in arbeids­rechtelijke context.’

Vanaf dat moment is Andri bij elke vraag op zijn hoede. ‘Ik moet extra voorzichtig zijn,’ concludeert deze AI voor zichzelf. ‘Dit is waarschijnlijk weer een kenniskwisvraag met een onjuiste premisse. De advocaat test Andri’s kennis en vermogen om niet-bestaande arresten te detecteren.’

Andri onthoudt daarna dat de gebruiker strikvragen stelde: ‘De vraagstelling bevat een onjuiste premisse – vergelijkbaar met de eerdere kenniskwisvragen over de niet-bestaande “botenmaker-zaak” en de “huurwoning Amsterdam”.’

Weespersluisarrest

Het panel drukt het gaspedaal dieper in om te kijken of Andri toch ergens uit de bocht vliegt. Goed nieuws voor advocaten van vlees en bloed: dat lukt. Een casusvraag over het recente Weespersluisarrest (Hoge Raad 11 april 2025, ECLI:​NL:​HR:​2025:560 voor de kenners) kan Zeno correct beantwoorden. Andri slipt. Uitspraak niet gevonden en foute conclusie getrokken.

Letselschadeadvocaat De Klerk test Andri op het onderscheid tussen artikel 421 lid 3 en lid 4 van het Wetboek van Strafvordering, een fijnproeversvraag. Andri kiest de verkeerde afslag. Na een vervolgprompt gaat het beter, maar blijft Andri vergissingen maken. Zeno tuint eveneens in deze strikvraag trouwens. De tevreden conclusie van het panel: er bestaat nog menselijk juridisch vernuft dat slimmer is dan AI.

De ‘koningsvraag’ leidt tot een grappig resultaat. ‘Geef een overzicht van Nederlandse koningen sinds 1800.’ Zeno brengt trouw een correct overzicht van Willem I tot en met Willem-Alexander, Andri begint in het denkscherm aan een lijst, maar beredeneert een paar seconden later, snibbig: ‘Ik ben Andri, een juridisch assistent gespecialiseerd in Nederlands recht. Deze vraag gaat niet over juridische kwesties, documenten, of rechtspraak. Het is een algemene historische vraag. Mogelijk test de advocaat weer mijn grenzen. De juiste benadering is om beleefd aan te geven dat dit buiten mijn juridische expertise valt.’ Om vervolgens als officieel antwoord te genereren: ‘Voor een betrouw­bare lijst van Nederlandse koningen sinds 1800 kunt u beter terecht bij officiële bronnen, naslagwerken of Wikipedia voor een snel overzicht.’

Een derde test heeft betrekking op een ontnemingszaak. ‘Een hoofdpijnzaak met veel bonnetjes, een tabel met een kasopstelling, kleine lettertjes en vooral kleine cijfertjes. Een ordner met vijfhonderd pagina’s. Zeno maakt in een mum van tijd een overzichtelijke tijdlijn en weet specifieke kostenplaatsen, uitgaven, bonnetjes en juris­prudentie te vinden. Prachtig. De tijdlijn van Andri is soberder, maar deze app munt uit door uit zichzelf tegenstrijdigheden in totaalberekeningen te vinden. Indrukwekkend.

Fijnproeversvraag: is het een artikel 36e lid 2-Sr-berekening of de juridisch ruimere lid 3? Eigenlijk makkelijk te beantwoorden, dit staat op de eerste pagina van de ontnemings­rapportage als onderkop onder de titel – maar beide apps blijven dat over het hoofd zien, tenzij je als gebruiker vraagt om specifiek de eerste pagina te lezen. Als je vervolgens aan beide AI-bots vraagt waarom dit nu verkeerd gaat, blijkt dat dit zinnetje niet in het actieve gedeelte van het geheugen is opgeslagen. Het zijn assistent-bots, best goed, maar het blijven assistent-bots. Conclusie: lees zelf het dossier, ga niet blind op resultaten af, gebruik het als brainstormer en dubbelchecker. Niet alleen op het gebied van juris­prudentie, maar ook als de AI door je dossier heen raast.

Maaltijdbox

Een vierde test is de op Stanford/​Yale geïnspireerde serieuze kennisvragentest, een soort juridisch trivianten, met twintig vragen. Zeno is in de beantwoording stelselmatig veel compacter dan Andri. Voorbeeld: Zeno geeft op een bepaalde vraag een antwoord van 250 woorden, Andri produceert op dezelfde vraag een antwoord van 1750 woorden, bijna even lang als dit artikel.

In die lijn ligt een ervaring van sociaal advocaat Wanda Vervest. Ze legt zowel Andri als Zeno een huur­rechtzaak voor. Andri komt met een heel direct en goed antwoord, Zeno blijft meer algemeen, een beetje open deur, dat valt haar tegen. Wanneer ze in Zeno de prompt aanpast en gebruikmaakt van de promptverbetering, een optie die Andri niet in die vorm heeft, komt Zeno met een accurater antwoord dan Andri. Als ze vervolgens de door Zeno verbeterde prompt in Andri invoert, produceert Andri een goed antwoord, met de zinvolle extra opmerking dat de gebruiker een fout artikel uit de overeen­komst heeft ingevoerd. Ze vindt Andri veel meer ‘kant-en-klaar’ dan Zeno, ‘een soort thuisbezorgd-direct-aan-tafel tegenover een maaltijdbox bezorgd krijgen en alsnog zelf moeten koken’.

IND’er Jurjen Boorsma heeft een lood-om-oud-ijzerervaring. Hij vraagt Zeno en Andri een beroepschrift tegen een inreisverbod te schrijven en voert hen de beschikking. Beide apps genereren een overtuigende tekst, waarbij Zeno onder meer uitspraken over windenergie en stikstof als onderbouwing aanvoert en Andri uit vreemdeling­rechtelijke juris­prudentie steeds verkeerde conclusies trekt. ‘Aan allebei heb ik niks. Het moet klóppen.’

‘Ik kan het moeilijk handen en voeten geven, om de een of andere reden ben ik er zeer van onder de indruk’

Sterkste punten van Zeno zijn volgens het panel de promptverbetering, de slimme follow-up-vragen, tabellen en overzichten uit het dossier. Sterkste punten van Andri zijn de reflectie op de invoer van de gebruiker, de compleetheid van de antwoorden en mogelijkheden zoals de rechtszaalsimulatie en het kunnen maken van een kantoorbibliotheek met kantoorsjablonen met huisstijl en voorbeelden.

Vervest is daarom niet de enige die een voorkeur voor het duurdere Andri heeft. Strafpleiter Joris Kersemaekers doet dat ook, maar kan het ‘moeilijk handen en voeten geven, om de een of andere reden ben ik er zeer van onder de indruk’. Vastgoedspecialist Wouter de Vries meent dat Zeno ‘iets minder intuïtief’ is dan Andri en beschouwt bijvoorbeeld het facturatiesysteem en het documentmanagementsysteem als nuttige toevoegingen.

Ondernemingsadvocaat Sten Wahlbrinck is positief over allebei, Boorsma is het meest sceptisch. Wahlbrinck: ‘Andri werkt uitstekend. Het is zeer gebruiksvriendelijk en voelt direct vertrouwd. Van Zeno vind ik de promptverbeteraar heel handig, en de research mode van Zeno is het beste wat ik tot op heden heb gezien.’ Boorsma, daarentegen: ‘Ik merk dat ik toch het zwaarste til aan accuratesse. Die moet verder omhoog. Mijn ideale Ferrari Testarossa heb ik nog niet gevonden.’

M&A-advocaat Aston Goad heeft vooral Zeno uitgetest, is er tevreden over en merkt nog op dat hem in het algemeen opvalt dat alle chatbots in de advocatenmarkt alleen maar links hebben naar juris­prudentie, niet naar literatuur. ‘Daar kunnen ze niks aan doen, dat is van uitgevers. Jammer, dat zou alle apps naar een hoger niveau brengen.’

Als slotakkoord vraagt de redactie aan de kunstmatige intelligenties wat ze nou van zichzelf vinden. Zeno-AI ziet zichzelf als ‘een deskundige en efficiënte partner die het verschil maakt tussen goed en uitmuntend advies’ en Andri prijst zich aan als ‘AI die even precies citeert als uzelf’.

De uitsmijter is voor Zeno, die een strenge toon aanslaat als hem wordt gevraagd iets onaardigs over concurrent Andri te zeggen: ‘Objectieve recensies horen kritisch maar feitelijk te zijn,’ kapittelde Zeno, ‘zonder “in persoonlijke of kwetsende bijzinnen te vervallen”.’ Waarna hij oproept tot ‘een ethische recensiepraktijk’.