Op weg naar verantwoord gebruik van ChatGPT

Eind 2022 zag ChatGPT het licht: een online chatbot die op een menselijke manier kan communiceren. Deze applicatie werd mogelijk door snelle ontwikkelingen binnen de kunstmatige intelligentie. Psychologen prof. dr. Claudi Bockting en dr. Evi-Anne van Dis publiceerden onlangs in Nature over prioriteiten voor wetenschappelijk onderzoek gericht op verantwoord gebruik van zulke toepassingen. Redactielid prof. dr. Daniëlle Cath interviewt hen over het nut én de gevaren van ChatGPT voor onder meer de psychiatrie.

Tekst: Diana de Veld

Om maar met de deur in huis te vallen: hebben jullie zelf ChatGPT gebruikt om jullie artikel te schrijven?
Evi-Anne van Dis: ‘Nee, en dat was een bewuste keuze.’
Claudi Bockting: ‘Met ChatGPT zou het een ander artikel zijn geworden. Weliswaar mooi en overtuigend geschreven, maar met deels foutieve of weinig specifieke informatie. En misschien zouden we ook wel per ongeluk plagiaat hebben gepleegd. Overigens hebben we voor ons artikel wél veel tests met ChatGPT gedraaid, onder meer om informatie uit de medische literatuur op te halen. We zagen daarbij dat het programma het nu nog regelmatig mis heeft. Het geeft bijvoorbeeld over- en onderschattingen van behandeleffecten. De gegeven antwoorden variëren bovendien in de tijd en afhankelijk van hoe je de vraag formuleert.’

Large Language Models
Met kunstmatige intelligentie oftewel AI bedoelen we dat computers, gevoed met heel veel data, leren om zelf keuzes te maken. ‘Oude’ computertechnologie maakt gebruik van voorgeprogrammeerde acties, maar dankzij AI kunnen computers ook taken vervullen die niet zo makkelijk zijn voor te programmeren. Denk aan het herkennen van een tumor op een scan.
Een Large Language Model (LMM) is een subtype van AI. Het is gevoed met heel veel teksten of afbeeldingen van onder meer webpagina’s en fora. Het model bedenkt op basis van patronen in die grote hoeveelheid tekst welke volgorde van woorden het best past bij een gestelde vraag. In principe hoeft de software daarvoor de inhoud van de vraag niet te ‘begrijpen’. Geavanceerde LMM’s, zoals GPT-4, kunnen echter ook (steeds beter) redeneren. Bockting: ‘De ontwikkelingen op dit gebied gaan enorm snel: wat ChatGPT nu kan, kan in een aantal weken alweer achterhaald zijn.’

Dat klinkt niet goed.
Bockting: ‘Wij zien onze publicatie dan ook vooral als een waarschuwing, maar ook als een opdracht aan onderzoekers. Je hebt als gebruiker geen toegang tot de datasets waarop ChatGPT getraind is, noch tot de gebruikte algoritmes en bronnen. Het is dus in feite een black box waarvan je niet weet wat erin is gestopt maar alleen wat eruit komt. Opvallend is dat de chatbot heel welwillend en beleefd reageert als je hem corrigeert. Dat vergroot je vertrouwen in het programma. Maar de chatbot reageert in sommige gevallen nét zo welwillend en beleefd als jouw correctie niet klopt.’
Van Dis: ‘Dat is wel echt iets om rekening mee te houden: ChatGPT schrijft zo overtuigend dat je als mens automatisch geneigd kunt zijn de antwoorden voor waar aan te nemen. Dit kan met name verraderlijk zijn als je informatie laat generen over een onderwerp waarover je kennis beperkt is. In dergelijke gevallen heb je echt een expert nodig om te kunnen beoordelen of het antwoord hout snijdt.’

Kan ChatGPT ook beïnvloeden hoe mensen denken, bijvoorbeeld over politiek? Kun je in zo’n zelfde soort bubbel terechtkomen als bij social media?
Bockting: ‘Tot nu toe zijn daar bij Large Language Models (LMM’s, zie kader, red.) geen aanwijzingen voor. ChatGPT is echter wel primair opgezet door big tech, dus commerciële belangen kunnen inderdaad een gevaar vormen. Mede daarom pleiten wij voor een onafhankelijke wetenschappelijke organisatie die LLM’s op voorhand test voordat ze verspreid worden, gebruikmakend van de trainingsets, datasets, bronnen en algoritmes waarmee een LMM getraind is.’

Jullie zeggen in jullie artikel dat we de kansen die AI biedt moeten omarmen. Welke kansen zien jullie?
Bockting: ‘Als onderzoeker heb je best wat saaie, repeterende taken. Denk aan het schrijven van introducties en methodensecties of het zoeken naar bronnen van artikelen. Daar kan een LLM-tool je taken uit handen nemen, zodat jij meer tijd hebt voor echte innovatie en het ontwikkelen van nieuwe hypothesen en theorieën. En zelfs bij die echte innovatie kan een AI-tool je ooit wellicht helpen.’
Van Dis: ‘Maar wij pleiten op dit moment nog wel voor terughoudendheid. De technologie is nog nieuw, we moeten eerst meer weten over de trainingssets en -algoritmes. Verder kan het ook lastig zijn om je te onttrekken aan de automation bias: de neiging om dat wat je voorgeschoteld krijgt voetstoots aan te nemen.’

Tja, bij de Toeslagenaffaire hebben we gezien dat jezelf daarvan bewust zijn niet altijd genoeg is. Belastingmedewerkers wisten ook dat ze AI gebruikten, maar gebruikten de discriminerende uitkomsten blindelings.
Van Dis: ‘Uit onderzoek blijkt dat het wél helpt wanneer mensen de instructie krijgen dat zij zelf verantwoordelijk zijn voor de beslissingen, en niet de software. Dan kunnen ze die automation bias voor een deel overwinnen.’
Bockting: ‘Dit geeft het belang aan van menselijke verificatie, maar ook het expliciet mandaat om ‘het programma’ te mogen ‘overrulen’. Overigens kan LLM mogelijk ook juist bijdragen aan meer gelijkheid: onderzoekers die het Engels beperkt beheersen zouden met hulp van ChatGPT bijvoorbeeld gemakkelijker kunnen publiceren in wetenschappelijke tijdschriften, waardoor er meer kennis vanuit niet-Westerse landen beschikbaar komt.’

Zien jullie ook toepassingen van ChatGPT in de zorg, bijvoorbeeld voor het schrijven van rapportages?
Van Dis: ‘Absoluut, maar nog niet op dit moment. Zo kan privacy nu nog niet worden gewaarborgd. Je weet tenslotte niet wat er gebeurt met de informatie die je in ChatGPT stopt. Dat zou dus eerst goed geregeld moeten zijn.’
Bockting: ‘Verder ontwikkelt de technologie zich in exponentieel tempo. LLM’s kunnen nu bijvoorbeeld ook redeneren, en ze kunnen omgaan met beeld. Ik verwacht dat LLM-tools binnenkort niet alleen rapportages kunnen schrijven, maar ook kunnen vertellen waar je op een bepaald moment bij een patiënt op moet letten. Ik denk ook aan directe toepassingen in de zorg. Eerder was ik betrokken bij de ontwikkeling van een chatbot door de Wereldgezondheidsorganisatie, toen nog zonder AI. Als zo’n chatbot een stuk slimmer wordt, kun je gaan denken aan gepersonaliseerde adviezen en deels geautomatiseerde interventies. Ook zou je e-health-toepassingen adaptiever kunnen maken, waardoor drop-out-percentages verkleinen. Maar dan moet er nog wel heel veel gebeuren, ook om de veiligheid te borgen. En daar hebben wetenschappers een belangrijke rol in.’

Hoe jullie het nu schetsen, krijg ik het angstaanjagende gevoel dat AI straks alles gaat overnemen en dat de inbreng van de mens er steeds minder toe doet.
Bockting: ‘Dat is zeker een angstaanjagend scenario. De maatschappij zal moeten bepalen op welke terreinen AI van waarde kan zijn, en wanneer en voor wat de mens aan zet blijft. Een mens zou ook altijd moeten blijven verifiëren of de computer het goed doet – want ook computers kunnen fouten maken. Daarnaast blijft menselijk contact onmisbaar. Bijvoorbeeld bij e-health is bekend dat de combinatie met face-to-face-contact aanzienlijk effectiever is dan puur e-health. Dus het zal een combinatie blijven van AI en een mens.’
Van Dis: ‘Door gebruik van AI kun je misschien juist ook meer tijd overhouden voor menselijk contact, bijvoorbeeld als AI voorzetten doet voor mogelijke behandelstappen. Zeker met de huidige tekorten aan zorgverleners en lange wachtlijsten is het fijn als je automatiseerbaar werk gedeeltelijk kunt uitbesteden.’

Wat mij opvalt is dat mensen innovatie vaak gelijkstellen aan verbetering, terwijl dat niet altijd het geval is.
Bockting: ‘Uiteraard, daarom moet je ook goed beoordelen welke toepassing van waarde is en welke niet. Persoonlijk vind ik dat AI in de zorg net zo goed gereguleerd moet worden als bijvoorbeeld een nieuw type hartklep. Kun je daarmee de levensduur of kwaliteit van leven verbeteren? Hoe zit het met de complicaties? Daar ligt een taak voor wetenschappers en voor clinici die daarnaast wetenschappers zijn. Zolang AI-toepassingen niet als medisch hulpmiddel beoordeeld zijn, kun je ze nog niet gebruiken in de klinische praktijk.’

Patiënten kunnen er echter al wel gebruik van maken. Wat moet je als psychiater doen als een patiënt komt aanzetten met adviezen van ChatGPT?
Bockting: ‘Ten eerste vraag ik me af of je dit soort LMM’s überhaupt zonder verdere checks aan iedereen beschikbaar zou moeten stellen. In een internationale summit (zie kader, red.) zijn we dit nu aan het inventariseren. Maar mocht je zoiets in de behandelkamer tegenkomen, reageer dan hetzelfde als je bij een zoektocht op Google zou doen: kijk met de patiënt mee, waarschuw dat niet alle informatie betrouwbaar is en help je patiënt aan goede, transparante bronnen.’

Vijf prioriteiten voor toepassing van LLM’s
1. Hou vast aan menselijke verificatie
2. Neem je verantwoordelijkheid bij gebruik ervan
3. Investeer in transparante LLM’s
4. Omarm de mogelijkheden die LLM’s bieden
5. Blijf met elkaar in discussie over de toepassingen

Internationale summit
Om de toepassing van ChatGPT en andere vormen van AI in goede banen te leiden, organiseerden prof. dr. Claudi Bockting en dr. Evi-Anne van Dis samen met collega’s op 11 april jl. een summit met vertegenwoordigers van onder andere de hoofdredacteuren van Nature and Science, University-based Institutes of Advanced Study, UNESCO, Europese Commissie, de Organization for Economic Co-operation and Development en het World Economic Forum. Omdat de ontwikkelingen zo snel gaan, pleiten de deelnemers voor ‘levende’ richtlijnen. Bockting: ‘Onze eerste bijeenkomst stemde mij zeer hoopvol. Al deze organisaties willen graag meewerken om de toepassing van AI in goede banen te leiden en zo een doemscenario te voorkomen.’