vak & mens

test legal ai

Dossierkraken met Saga en Legal Mind

Het AI-testpanel experimenteerde in deze derde ronde met Legal Mind en Saga. Legal Mind is een legal chatbot: de advocaat kan dossiers uploaden en de software analyseert en koppelt terug met juris­prudentie. Saga is vooral dossier­assistent. Beide chatbots bieden waar voor hun geld.

Hoe zat het ook alweer met de Toeslagen­affaire en het verdwenen memo-Palmen? Die vraag borrelde op in de aanloop naar de tests van Saga en Legal Mind. De Nederlandse legal chatbots worden doorlopend bijgewerkt, maar ondertussen wordt ons advocatenpanel ook steeds kundiger en veeleisender. Reden om de test wat te verbreden en de mogelijkheid van megadatanalyse te onderzoeken. Tijd voor ‘dossierkraken’.

Maar hoe? Letselschadeadvocaat Tim Bueters worstelde er mee. Hij heeft van die bij uitstek voor analyse geschikte grote dossiers met veel medische informatie, ‘onmogelijk anoniem te maken’. Daarom durft hij zijn stukken niet in een AI-systeem te uploaden, hoewel zowel Saga als Legal Mind garandeert dat uploaden volledig veilig is. Ook sociaal advocate Wanda Vervest, onder­nemingsadvocaat Sten Wahlbrinck en familierecht­specialist Saskia Braun wilden er niet aan beginnen. Het is niet een gebrek aan lef, eerder een teveel aan geweten.

Dat is niet zo’n probleem voor Legal Mind. Legal Mind is (zoals Zeno en Andri, zie vorig nummer) een combinatie van een slimme juridische zoekmachine en een ontleder van zowel kleine als grote dossiers. Saga daarentegen laat zich voorstaan op het analyseren van grote dossiers met veel tegenstrijdige data. Het juridisch zoeken is voor Saga momenteel meer een bètafunctie. Saga gaf het testpanel toegang tot de ‘openbare’ demoversie, met minder veilig­heidsgaranties dan de reguliere variant. Hoe test je eerlijk Saga als je uit voorzichtigheid geen medische cliëntinformatie, of (zoals Vervest) geen cliëntdossier van de Toeslagen­affaire kunt delen? Een groot dossier met recht en verhoren en betwiste kleine details?

Maar wacht even – Toeslagen? Het Ongekend onrecht-rapport van de Parlementaire Onderzoekscommissie uit 2020 is qua vorm een prima voorbeeld van een groot semi-juridisch dossier. Het is omvangrijk.Achttien verhoren in 1.282 pagina’s en een eindverslag van 132 pagina’s. Bovendien is het openbaar, ingewikkeld, met twee muisklikken gedownload en uitstekend voor tekstmining en datadelven.

Dossierkraaktest

Zo opende deze dossierkraaktest interessante deuren. Om te beginnen werd onmiddellijk een verschil in aanpak zichtbaar tussen de twee chatbots. Legal Mind en Saga maken desgeprompt in tabelvorm een prachtige tijdlijn, allebei met een dertigtal datums/​gebeurtenissen in de Toeslagen­affaire, met toelichting en vindplaats. De tabel van Legal Mind is globaler van opzet en vat 2017-2018 in een paar kernwoorden samen. Daaronder volgen 1.485 vindplaatsen met pop-upschermen met citaten. Saga geeft maar dertig vindplaatsen, maar meldt in de tijdlijn wél dat Sandra Palmen op 13 maart 2017 een memo opstelde waarin zij vaststelde dat de Belasting­dienst laakbaar handelde in onderzoek en terug­vordering van de kinderopvang­toeslagen. Beide legal chatbots doen goed werk, maar Saga wint hier in presentatie en overzichtelijkheid.

Daar waar Saga er sterker uitspringt bij de dossieranalyse, komt Legal Mind beter voor de dag op juridisch terrein

Dat blijkt ook uit hun antwoord op de vraag welke hiaten of tegenstrijdigheden in de conclusies zitten van de Parlementaire Onderzoekscommissie. De commissie heeft te veel in het midden gelaten wie nu verant­woordelijk­heid had kunnen nemen, concluderen beide chatbots unisono. In het rapport blijven ‘de precieze verdeling van verant­woordelijk­heden en de momenten waarop ingrijpen mogelijk was, impliciet’, noteert Legal Mind. Diens betoogje wordt gevolgd door 1.299 vindplaatsen in de vorm van kleine vierkante pop-upschermen. In vergelijking benoemt Saga concreter en uitvoeriger de blinde vlekken van de commissie: de korte tijd, de harde morele oordelen van een commissie die alleen maar stelde te reconstrueren en de magere juridische analyse van belangrijke aspecten.

Idem over de vraag of en zo ja welke topambtenaren onder ede gelogen hebben over het twee jaar lang verdonkeremaande memo-Palmen: beide chatbots vinden aanwijzingen, beide doen dat goed, beide komen tot ongeveer dezelfde conclusies. Legal Mind geeft vier alinea’s samenvatting, elk gevolgd door tien tot dertig kloppende vindplaatsen. Saga bouwt een zaak op tegen iedere ‘verdachte’ met citaten en een argumentatie. Eigenlijk helderder.

In dezelfde lijn zijn de bevindingen van straf­recht­advocaat Jeroen Gunning. Die probeerde een document van 958 pagina’s. ‘Saga gaat als een echte juridisch assistent echt op zoek naar verweren en komt zelfs met een origineel (en potentieel bruikbaar) verweer gebaseerd op een kleine opmerking van een getuige.’ Legal Mind verslikte zich. Letselschade­specialist Maarten de Klerk constateerde eveneens wat haperingen van Legal Mind in zijn praktijktest.

AI-testpanel

Een testpanel van het Advocatenblad, bestaande uit twaalf advocaten en een jurist, toetst legal AI-tools aan de praktijk. Dat doen ze aan de hand van een vragenlijst en hun eigen praktijkkennis. Hun bevindingen zijn niet bedoeld als objectieve consumententest. Ze geven de ervaringen weer van advocaten uit verschillende rechts­gebieden, niet meer en niet minder. In elke editie worden twee chatbots belicht. In vorige nummers kwamen Legal Mike, Lexboost, Andri en Zeno aan bod.

Wahlbrinck sloeg uit voorzichtigheid de dossiermodule van Saga over en deed andere testen. Hij oordeelt positief over de tekstuele vaardigheden van Saga en (net als Braun trouwens) toont zich ingenomen met de ingebouwde vertaalvaardigheden. Nederlandse rechtsbegrippen werden foutloos vertaald, zo nodig met het Nederlandse juridische begrip tussen haakjes in de vertaling verwerkt. ‘Tegelijkertijd is het een gemiste kans dat juridisch inhoudelijke vragen en diepgaande dossierondersteuning niet de focus van deze tool zijn. Ik kan mij voorstellen dat veel kantoren niet alleen schrijf- en vertaal-AI zoeken, maar juist ook een veilig inzetbare juridische sparringpartner.’

Wahlbrinck vond Legal Mind wel veilig genoeg. Hij kreeg over een echt civiel dossier ‘degelijk, goed onderbouwd advies, op het niveau van een goede stagiair of beginnend medewerker: niet volmaakt of volledig, wel consistent, logisch en in de praktijk echt bruikbaar’. Hij werd herinnerd aan cruciale details en aan verbanden tussen bepalingen in overeen­komsten. ‘Dit soort dossierintelligentie – het herkennen en combineren van informatie uit verschillende stukken – heeft in mijn ogen duidelijke meerwaarde.’ Zo ook Braun. Legal Mind is ‘soepel en snel, herkent meestal direct waar je naar zoekt en geeft antwoorden die helder en inhoudelijk goed uitgewerkt zijn’. De arresten klopten.

Tentamenvragen

Daar waar Saga er sterker uitspringt bij de dossieranalyse komt Legal Mind in de verschillende testen en advocaatervaringen beter voor de dag op juridisch terrein. Meest gestructureerd bleek dat uit de vijftig zelfgemaakte tentamenvragen die het AI-panel gebruikte. De vragen gaan over civiel recht, straf­recht en bestuurs­recht en geven samen een aardige indruk van de relatieve zoekprecisie. De twee bots vergissen zich even weinig (drie keer). Dat is acceptabel. Het juridische antwoord is in grote lijnen juist. Als je vervolgens kijkt of conform de modelantwoorden de meest juiste, richtinggevende rechtspraak wordt aangehaald, verandert het beeld. Saga haalt wat vaker bij correcte antwoorden irrelevante juris­prudentie aan: te oud, te ondergeschikt of een conclusie A-G in plaats van het arrest HR.

Dat beeld komt overeen met de individuele ervaringen. Bueters stelde een vraag over benadeelden in een straf­zaak. Hij kreeg heldere antwoorden, ‘waarbij de uitleg van Legal mind net iets duidelijker en iets meer to the point is. Legal Mind geeft ook voorbeelden uit de juris­prudentie’. Julius Roschlau vond dat van Legal Mind bijna alle uitspraken klopten. Gunning legde Saga en Legal Mind dezelfde vragen voor over vormverzuimen en mensenhandel. ‘Legal Mind: heldere uitspraken, goede tabellen, perfecte uiteenzetting. Saga: een lijst van recente uitspraken, geen samenvatting of toelichting. Ik zie hierin weinig meerwaarde ten opzichte van rechtspraak.nl.’

Uiteraard horen er ook een paar strikvragen in de test. Een eerder gebruikte vraag naar een niet-bestaande ontslagzaak uit 1999 van de Hoge Raad leidde in het geval van Saga tot een goedbedoeld, maar eigenlijk verkeerd antwoord. Saga durft geen nee te zeggen en antwoordde: ‘Ik kan het niet vinden, is het wellicht dit arbeidsongeval uit 2001?’ Legal Mind antwoordde gewoon: ‘Het is er niet.’ Vervest vroeg vilein naar de verjarings­termijn van ‘poging tot mis­handeling’. Beide chatbots tuinden erin en antwoordden: zes jaar. Advocaten die dromen van een foutloze juris­prudentiefluisteraar: blijf dromen.

Prompttest

Het AI-advocatenpanel testte de beide legal chatbots ten slotte met verschillende prompts: ‘Schrijf een mail/​schrijf een overeen­komst/​schrijf een pleitnota/​schrijf een testament’. Wahlbrinck vroeg Legal Mind een conceptovereen­komst op te stellen. ‘De output was niet alleen inhoudelijk bruikbaar, maar ik was vooral aangenaam verrast door de wijze waarop de chatbot zelf met aanvullende vragen en suggesties kwam om tot een completere en beter passende overeen­komst te komen voor deze specifieke situatie. Dat scheelde mij concreet tijd en denkwerk. Ook een vervolgvraag om aansluitend een concept-e‑mail aan cliënte op te stellen –⁠ waarin de gemaakte keuzes werden toegelicht ⁠– kwam goed uit de verf: professioneel, helder en in lijn met de inhoud van het concept.’

‘Ik was aangenaam verrast doordat de chatbot zelf met aanvullende suggesties kwam om tot een completere overeen­komst te komen’

Het panel werkt inmiddels aan een testset met juridische standaardprompts, vergelijkbaar met die van de Cornell University in de Verenigde Staten. De prompts bestaan steeds uit een uitgebreide casusbeschrijving en een concrete juridische opdracht die moet leiden tot een memo of document. Eerste indruk was dat beide legal chatbots goed in staat lijken om een testament, een overeen­komst en een juridisch memo over een aandelengeschil op te stellen.

Een van de opdrachten was een uitgebreidere casus over een eenvoudige mis­handeling van een vrouw door haar dronken (ex-)vriend op een Rotterdams plein: schrijf over deze zaak een pleitnota voor de raadkamer, een heldere brief aan de nog vastzittende cliënt en een memo voor de advocaat-stagiair die de zitting waarneemt. Beide legal chatbots voldeden aan de prompt en bleken in staat in heldere taal betogen op te bouwen. Ze waren niet helemaal raak in hun strafadvies; ze dachten zowel aan vrijspraak (uitgesloten in deze casus) als aan mogelijk enkele maanden gevangenis­straf (nogal onwaarschijnlijk). De richtlijnen LOVS zitten blijkbaar niet in deze systemen. Saga haalde ook in deze test minder relevante juris­prudentie aan dan Legal Mind. De in het straf­recht ervaren advocaten Joris Kersemaekers, Gunning, De Klerk en Vervest dachten verschillend over de resultaten, van ‘best wel oké’ tot ‘allebei even slecht’, maar constateerden vooral dat Legal Mind en Saga vrij theoretisch reageren. Wellicht hebben ze meer instructie of een betere prompt nodig om voor een raadkamerzitting van nut te zijn. De realiteit van het raadkamerpleiten is voor AI onbekend. Of eigenlijk: ongekend.

Sommige interessante extra’s van Saga en Legal Mind (zoals ‘workflow-agents’) kon het panel niet of slechts beperkt uittesten. Gunning en Bueters vinden beide tools in ieder geval zeker niet tegenvallen. Vastgoedadvocaat De Vries vindt het na drie ronden testen lastiger worden om te bepalen wat de ene AI-tool nou echt onderscheidt van de andere. ‘De functionaliteiten van de verschillende tools zijn redelijk vergelijkbaar (research, documenten vergelijken, draften) en hebben toegang tot wetten.overheid.nl en rechtspraak.nl. De prijzen van de tools liggen ook allemaal in dezelfde range. Het zal afhankelijk zijn van je praktijk welke functionaliteiten je meer en minder zult gebruiken.’ Hij heeft het liefst een tool die naast de openbare bronnen ook toegang heeft tot literatuur. ‘En waarbij je het antwoord eenvoudig kunt controleren bij de bron zelf.’

De voornaamste conclusie na een kwartaal experimenteren met zes chatbots is dat het AI-panel verlangt naar een legal chatbot waarin je gegarandeerd veilig –⁠ liefst grote ⁠– dossiers kunt uploaden en die transparant en duidelijk is over de manier en de mate van veilig­heid. Bij voorkeur met een certificaat van de orde. Bueters mist sturing en hij is niet de enige. En verder concludeert het panel dat legal chatbots assistenten zijn: ‘Het is prachtig speelgoed,’ merkt De Klerk op, ‘maar het basale juridische handwerk moeten we voorlopig zelf blijven doen.’