Lexboost en LegalMike: niet foutloos, wel nuttig

Advocatenblad

vak & mens

test legal ai

door Jurjen Boorsma & Kees Pijnappels

De twee legal chatbots Lexboost en LegalMike bijten de spits af in de testreeks van het Advocatenblad. Hamvragen voor de panelleden: werken ze, werken ze goed en werken ze goed voor ons? Het panel oordeelt kritisch, maar is het over één ding eens: de apps hebben toekomst.

De technologie ontwikkelt zich snel, heel snel. Panellid Wanda Vervest, advocaat sociale zekerheid: ‘Ik testte vorig jaar software van een bedrijf dat inmiddels verdwenen is. Lexboost en LegalMike kunnen veel meer, stelt ze vast.’ Maar ook binnen korter tijdsbestek zijn er vorderingen. Zelfs in de twee testweken kwam zowel LegalMike als Lexboost met updates. Zo voegde LegalMike EU-jurisprudentie, tuchtrechtspraak en lokale wetgeving toe aan de rechtsbronnen, maar kwam dat voor sommige panelleden te laat. Dat leidt tot het inzicht dat de indrukken van het testpanel een momentopname zijn.

Een belangrijke constatering uit deze eerste testronde is dat chatbots erg kunnen verschillen in uitvoering. Lexboost biedt geen mogelijkheid tot het uploaden van stukken. Dat is een bewuste keus, omwille van de dataveiligheid. LegalMike kan documenten tot 5 MB uploaden, maar is duurder. Grotere bestanden vergen ondersteuning van Amerikaanse OpenAI-technologie en dat draagt volgens LegalMike het risico in zich dat ingevoerde data naar de VS verdwijnen.

Iedereen is te spreken over de lay-out en de gebruikersvriendelijkheid. Lexboost en LegalMike openen allebei met een herkenbaar chatbot-scherm, Google/ChatGPT-stijl. Typ je vraag in en druk op verstuur. Geen toeters. Geen bellen. ‘Lexboost begrijpt goed wat je bedoelt, zonder vakjargon,’ aldus Saskia Braun, familierechtadvocaat. Ze kon makkelijk navigeren naar haar lopende projecten in het scherm. Sten Wahlbrinck, civilist, geeft het navigeren in LegalMike de maximumscore: ‘Heel fijn!’ Alleen bij veel vervolgvragen daalt volgens panelleden de overzichtelijkheid. LegalMike heeft steeds een paar minuten denktijd nodig, ook bij korte vragen, en dat vraagt het nodige geduld.

LegalMike heeft echter een coolness-factor die het basalere Lexboost (nog) mist. Gedwongen tot een keuze wegens plotselinge drukte koos arbeidsrechtadvocaat Thomas de Rijke daarom voor de eerste. ‘LegalMike kwam op mij over als een vollediger pakket aan mogelijkheden.’ Met name de mogelijkheid om bijlagen te uploaden en de ‘geavanceerde’ modus die aan de gebruiker tegenvragen stelt en ‘rechtsvragen’ formuleert, vallen in de smaak. ‘Dat ziet er chic uit,’ vindt Joris Kersemaekers, strafpleiter.

Hoewel de twee apps dat niet of nauwelijks faciliteren, probeerde een aantal panelleden toch een dossier te uploaden. Wanda Vervest wilde een huwelijksvermogensrechtzaak voorleggen aan Lexboost. Ze was gedwongen de casus zelf te omschrijven, in haar ogen een struikelblok. IND’er Jurjen Boorsma omzeilde het door de volledige tekst van een (geanonimiseerd) terugkeerbesluit te knippen en te plakken in het scherm van Lexboost. Kersemaekers noemt het essentieel om een dossier te kunnen uploaden. ‘In ons soort grote strafzaken, met heel veel ordners, heb je gegenereerde tijdlijnen en een leeswijzer nodig. Dat is de meerwaarde.’

LegalMike staat wel toe dat er bestanden worden ingevoerd, zij het beperkt, tot 5 MB of vijftig bladzijden. Dat is niet genoeg, oordelen diverse panelleden. Slachtofferadvocaat Maarten de Klerk toont zich het meest uitgesproken: ‘Ik heb eigenlijk nooit dossiers van maximaal vijftig bladzijden. De grens van 5 MB is ook onhandig, waardoor ik een kunstgreep moest uithalen. Het enige bruikbare dossier was juridisch en feitelijk zo plat als een dubbeltje.’

Maar zelfs dat flinterdunne dossier liep schipbreuk. Het dossier raakte kwijt, de chat die erbij hoorde verdween, en na hernieuwd uploaden bleek de pdf niet toegankelijk. Ook een ander panellid rapporteerde crashes.

Beide bedrijven geven naar aanleiding van de panelbevindingen aan dat hun app niet voor dossieranalyse is bedoeld. Lexboost presenteert zich als een betaalbare, laagdrempelige researcher, een ‘digitale Tekst en Commentaar.’ LegalMike legt het accent op het analyseren van Nederlandse en Europese rechtsbronnen plus het opstellen van advies, dat kan worden omgezet in cliëntdocumenten, zoals memo’s en brieven.

‘Het is eigenlijk wel fijn dat de test bevestigt dat je als advocaat boven het dossier moet blijven hangen’

Maar toch is het een gemis, vindt Kersemaekers. ‘Bij ChatGPT kun je in principe veel meer en veel langere documenten invoeren. Het is gek dat het bij deze apps niet kan.’

Zijn de resultaten van de analyses betrouwbaar? Dat is natuurlijk cruciaal. Lexboost plaatst als disclaimer: ‘Lexboost kan fouten maken en vormt geen juridisch advies. Controleer belangrijke informatie.’ LegalMike zet onder aan in het chatscherm: ‘Er bestaat een kans dat LegalMike fouten maakt.’ Die fouten worden inderdaad gemaakt, door beide apps, constateren de panelleden.

Letselschadeadvocaat Tim Bueters vroeg advies inzake een verkeersongeval waarbij de wederpartij twee specifieke neurologen voorstelde als getuige-deskundige. ‘Geef argumenten waarom deze personen niet geschikt zijn,’ luidde de prompt.

LegalMike reageerde met twee niet zo relevante uitspraken. Het zoeken op de namen van de bewuste deskundigen levert in LegalMike te weinig op. Lexboost kwam met jurisprudentie over deskundigen in een arbeidsgeschil en stelt vervolgens dat neurologen niet de aangewezen personen zouden zijn om in deze zaak op te treden. Inhoudelijk onjuist en onderbouwd met foute uitspraken, stelt Bueters vast. Hij kwam met Perplexity (een gratis tegenhanger van ChatGPT) wél tot bruikbare resultaten en uitspraken.

Boorsma testte beide apps met een eigengemaakte tentamenvraag op basis van een actuele vreemdelingenrechtelijke uitspraak en met een dossier. Dat bestond uit een beschikking en een beroepschrift. De casus werd door beide apps vrij goed opgelost. Mis ging het met het dossier, niet verwonderlijk gezien het voorgaande.

Vervest voerde in LegalMike haar huwelijksvermogensrechtzaak in, vroeg om een samenvatting en kreeg tot haar verbazing een samenvatting van een bouwzaak. Vastgoedadvocaat Wouter de Vries liet LegalMike en Lexboost los op een civiele kwestie met een financieringsvoorbehoud. Het was een zaak met een dubbel juridisch probleem – hij wilde weten hoe de bots daar op zouden reageren. LegalMike verhaspelde een ECLI-nummer, besprak maar de helft van de kwestie en haalde ECLI-codes van niet relevante strafzaken aan. Lexboost citeerde uitspraken van de Raad van State en de Belastingkamer, miste de kern en toonde citaten die niet in de uitspraak stonden.

‘Het lijkt dichtgetimmerd. Ik ben huiverig. Het is wel mijn verantwoordelijkheid als advocaat dat er geen gegevens lekken’

Andere panelleden hadden daarentegen redelijk positieve ervaringen met de apps. Braun denkt dat Lexboost over het algemeen de meest bruikbare jurisprudentie aanhaalt, hoewel er per vraag verschillen zijn. ‘Overzichtelijk, snel, mist soms wat verdieping.’ LegalMike is in haar ogen diepgaander, ten koste van een langere denktijd.

Kersemaekers was blij met een advies over wijziging tenlastelegging en een mogelijke vormfout in een huiselijk geweld-zaak. De Rijke constateerde een fikse fout van LegalMike, dat zich geen raad wist met een dubbele ontkenning in een rechterlijke uitspraak. Desondanks toont hij zich positief verrast. ‘Eigenlijk al direct. In arbeidsrecht kwam ik tot een goed en vaak best sluitend antwoord.’

De Vries voerde een eigen, op rechtspraak.nl gepubliceerde zaak van hem in. Beide chatbots vonden de zaak terug, Lexboost was goed in het beantwoorden van vervolgvragen die hij stelde, ‘misschien had ik scherper moeten prompten of beter moeten afbakenen,’ zegt hij, half verontschuldigend. ‘Het werkt goed als eerste indruk, een administratief assistent die een eerste schifting maakt,’ een mening die door anderen wordt gedeeld. De Rijke: ‘Het is eigenlijk wel fijn dat de test bevestigt dat je als advocaat boven het dossier moet blijven hangen.’

Vervest behoorde tot de meer kritische gebruikers, maar zij vergelijkt de chatbots uit deze testronde met software uit een veel duurdere prijsklasse, waar ze op kantoor al langer mee werkt. Goad zocht de nuance, als echte jurist gaf hij een enerzijds-anderzijds-antwoord: ‘Nuttig dat de bronnen beperkt zijn tot wet en rechtspraak, de apps besparen veel tijd. Aan de andere kant geven ze vaak een goed-of-foutbeoordeling, terwijl je aan meer nuance en aan alternatieven behoefte hebt.’

Veiligheid

Bijzonder punt van aandacht voor advocaten betreft privacy en veiligheid. De geheimhoudingsplicht noopt tot extra voorzichtigheid, realiseert zich iedereen in het panel. De Rijke en De Vries volgen beide bedrijven in hun belofte dat het een veilige werkomgeving is (wel raadt Lexboost af om persoonsgegevens te uploaden). De Rijke heeft er toch van afgezien om ongeanonimiseerde stukken te uploaden. ‘Een kleine moeite, bespaart een hoop mogelijke ellende.’

Strafadvocaat Kersemaekers durft evenmin te vertrouwen op de garantie van zowel Lexboost als LegalMike dat alle informatie in Nederland blijft: ‘Het is gevoelsmatig. Het lijkt dichtgetimmerd. Ik ben huiverig. Het is wel mijn verantwoordelijkheid als advocaat dat er geen gegevens lekken. Je weet niet op welke server het geplaatst wordt. ISO-gecertificeerd? Het zal wel, maar het zegt me niet zoveel.’ Hij vraagt zich af of de orde daarin een rol zou moeten hebben, in de vorm van certificering. ‘Of dat kan en of dat een rol van de orde is, is een tweede, natuurlijk.’

Het is lastig om een eindoordeel te vellen. Op het eerste gezicht zijn de prestaties van zowel LegalMike als Lexboost indrukwekkend. Het is knap hoe gemakkelijk en relatief snel ze met resultaten komen. Beide apps leveren met name tijdwinst op bij het maken van samenvattingen en analyses en als hulpje bij het vinden van artikelen en jurisprudentie. Beide chatbots maken ook vergissingen, geven onzuivere citaten en vallen ten prooi aan hallucinaties. Het zou niet eerlijk zijn dat onder tafel te schuiven.

Na afloop van deze eerste testronde en inventarisatie van de rapporten blijft de vraag waar de vergissingen van beide chatbots vandaan komen. Het is moeilijk daar de vinger op te leggen. Ligt het aan de casuïstiek? Een zaak waarin een financieringsvoorbehoud en een eindafrekening van de aanneemsom spelen is niet gemakkelijk, ook niet voor een juridische stagiair.’

Of ligt het aan het rechtsgebied? In het vreemdelingenrecht en in het privacyrecht is het Europese recht doorslaggevend. Corine d’Hulst, privacyadvocaat, over Lexboost: ‘Het is een geavanceerde zoekmachine voor nationale jurisprudentie. Dat doet de tool best oké. Ik zou zelf (nog) niet alleen op deze tool vertrouwen, omdat voor mijn vakgebied EU-jurisprudentie heel relevant is en omdat ik geen garantie heb dat het onderzoek volledig is.’

Of is het toch technisch? Het verwerken van een massa tekst vraagt geheugen en rekenkracht. Hoe meer woorden, hoe meer vermogen nodig. Het omzetten van context uit een pdf-bestand naar voor een chatbot begrijpelijke informatie is daarbij een extra stap waarin fouten gemaakt kunnen worden. Kortom, hoe groter en veeleisender het dossier, hoe groter de kans op hallucinaties, ondanks beperkingen, beveiligingen en interne, rechtstreekse koppelingen met jurisprudentiedatabanken in plaats van gebrekkige zoekslagen op het brede internet, zoals met ChatGPT.

Tijdwinst

Ondanks geconstateerde fouten in deze ronde zijn panelleden positief over de ontwikkeling in het algemeen. Hoogstens denken ze op basis van hun ervaring en verwachting verschillend. ‘Deze twee chatbots zijn nog niet zo ver,’ oordeelt Vervest. Zij vindt dat de relevantie van de gevonden jurisprudentie en wetgeving verder dient te verbeteren, evenals de juridische aanbevelingen.

Kersemaekers daarentegen overweegt de aanschaf van een abonnement. De Rijke zegt verbaasd te zijn dat de chatbots al zoveel kunnen. Wat hem betreft, is de volgende stap de mogelijkheid om meer en grotere documenten in te voeren, net als bij ChatGPT. De Vries zou het prettig vinden als Lexboost meer bronnen biedt, ‘bijvoorbeeld de Groene Serie van Wolters Kluwer.’ Ook Goad dringt er op aan literatuur toe te voegen, aan beide modellen. Vervest vindt dat beide apps veel met de doelgroep moeten samenwerken om ze praktischer te maken.

‘Met een goed werkende chatbot die snel de juiste antwoorden genereert voelt het alsof je spijbelt’

Iedereen ziet de toekomst. ‘Het adviseren blijft hetzelfde, maar zo’n eerste schifting – het zal geen uren schelen, maar misschien wel een halfuur,’ denkt De Vries. ‘Het is fijn om een omgevallen boekenkast te hebben,’ zegt Vervest. ‘Met een goed werkende chatbot die snel de juiste antwoorden genereert voelt het alsof je spijbelt.’ ‘Snel inzicht,’ concludeert Kersemaekers, ‘dat is de meeste winst.’

Zolang je maar zelf aan het stuur blijft, benadrukken ze allemaal. In de woorden van Goad: ‘Menselijke validatie en aanpassing blijven nog essentieel. Een geruststellende gedachte voor advocaten die aan de ene kant graag tijd willen besparen, maar aan de andere kant bang zijn dat mensen niet meer nodig zullen zijn voor het geven van genuanceerd en diepgaand advies.’