Dat blijkt uit een studie die eerder deze week werd gepubliceerd in Amerikaans tijdschrift voor gastro-enterologie.
ChatGPT is een groot taalmodel dat mensachtige tekst genereert als antwoord op vragen of uitspraken van gebruikers.
Onderzoekers van het Feinstein Institute for Medical Research vroegen twee versies van ChatGPT om testvragen te beantwoorden om de mogelijkheden en nauwkeurigheid ervan te beoordelen.
Elke test bevat 300 meerkeuzevragen. De onderzoekers kopieerden en plakten alle meerkeuzevragen en -antwoorden, met uitzondering van die met afbeeldingsvereisten, in het AI-aangedreven platform.
ChatGPT-3 en ChatGPT-4 beantwoordden 455 vragen, waarbij ChatGPT-3 296 van de 455 vragen correct beantwoordde en ChatGPT-4 284 vragen correct beantwoordde.
Om voor de test te slagen, moeten individuen 70% of hoger scoren. ChatGPT-3 scoorde 65,1% en ChatGPT-4 scoorde 62,4%.
De zelfrapportagetest wordt gebruikt om de prestaties van een persoon op het examen van de American Board of Internal Medicine Board of Gastroenterology te bepalen.
“Er is de laatste tijd veel aandacht voor ChatGPT en het gebruik van kunstmatige intelligentie in verschillende industrieën. Als het gaat om medisch onderwijs, is er een gebrek aan onderzoek naar deze potentieel revolutionaire tool,” Arvind Trindade, Ph.D., medewerker professor aan het Institute for Health Systems Science van het Feinstein Institute en senior auteur van het artikel, volgens de verklaring. “Op basis van ons onderzoek zou ChatGPT op dit moment niet moeten worden gebruikt voor medisch onderwijs in gastro-enterologie en het zal nog lang duren voordat het wordt geïmplementeerd in de gezondheidszorg.”
WAAROM HET BELANGRIJK IS
De onderzoekers van het onderzoek merkten op dat de slechte beoordeling van ChatGPT mogelijk te wijten is aan een gebrek aan toegang tot betaalde medische tijdschriften of verouderde informatie in het systeem, en er is meer onderzoek nodig voordat het met vertrouwen kan worden gebruikt.
Niettemin, een een studie gepubliceerd in PLOS Digital Health in februari ontdekte dat onderzoekers de prestaties van ChatGPT testten op het Amerikaanse Medical Licensing Exam, dat uit drie examens bestaat. De AI-tool bleek voor alle drie de examens de drempel te hebben gehaald of benaderd en toonde een hoog niveau van inzicht in de uitleg ervan.
ChatGPT gaf volgens hem ook “meestal geschikte” antwoorden op vragen over de preventie van hart- en vaatziekten onderzoeksbrief gepubliceerd in JAMA.
De onderzoekers stelden 25 vragen samen over basisconcepten voor het voorkomen van hartaandoeningen, waaronder advies over risicofactoren, testresultaten en medicatie-informatie, en gestelde vragen aan een AI-chatbot. Artsen beoordeelden de antwoorden als gepast, ongepast of onbetrouwbaar en ontdekten dat 21 van de 25 vragen als gepast werden beschouwd en vier als ongepast.