ChatGPT nie zna się na medycynie. Odpowiada źle w ponad 80 proc. przypadków

W piśmie naukowym JAMA Pedriatrics opublikowane zostały wyniki badań naukowców z Cohen Children’s Medical Center z Nowego Jorku, którzy postanowili sprawdzić stan wiedzy medycznej popularnego ChatuGPT od OpenAI. Do oceny jego umiejętności wykorzystano nietypowe przypadki pediatryczne, które pierwotnie trafiły do lekarzy jako materiał edukacyjny czy wyzwanie diagnostyczne. Łącznie było ich sto i wszystkie na przestrzeni ostatniej dekady zostały opublikowane przez JAMA Pediatrics i NEJM. Jak Chat GPT poradził sobie z diagnozami? Kiepsko.
W 72 przypadkach na 100 podał całkowicie błędną diagnozę, a w 11 – powiązaną z prawidłową, ale zbyt ogólną, by można ją było za taką uznać.
Tak więc nie poradził sobie w aż 83 proc. przypadków.
ChatGPT-3.5, a publicly available artificial intelligence chatbot, was tested as a diagnostic tool for complex pediatric case challenges.
The chatbot displayed a relatively high error rate of 83%, but still shows promise as a tool for physicians. https://t.co/f5ddesQvt8
— JAMA Pediatrics (@JAMAPediatrics) January 3, 2024
Dlaczego tak się dzieje? Zdaniem naukowców to dlatego, że generatywna sztuczna inteligencja nie potrafi rozpoznawać związku między określonymi stanami a okolicznościami zewnętrznymi i wcześniejszymi chorobami – a to bardzo pomaga w prawidłowej diagnozie. Przykładowo ChatGPT nie powiązał zaburzeń neuropsychiatrycznych z niedoborem witamin i innymi schorzeniami wynikającymi z restrykcyjnej diety.
Aby ChatGPT stawiał poprawne diagnozy, należałoby go szkolić i zasilać literaturą medyczną i specjalistycznymi informacjami – a nie tymi, które pochodzą z internetu i mogą być pełne błędów.
W ubiegłym roku ChatGPT prawie zdał amerykański egzamin medyczny – uzyskał niemal 60 proc., czyli ilość wymaganą do tego, by zostać lekarzem. Jak widać, to nie wystarczy.
Tekst: NS
Zdjęcie główne: National Cancer Institute/Unsplash