Дослідники з Університету Люксембургу протестували LLM-моделі ChatGPT, Gemini та Grok як симульованих пацієнтів психотерапії. Експеримент насамперед пов'язаний з дослідницькими функціями та спрямований на безпеку людей, які часто використовують ШІ як консультантів з психології. Дані опублікували на Hugging Face.
Підпишіться на канал Gloss.ua у Telegram.
Зазначається, що за клінічними шкалами вони демонструють екстремальні показники психіатричних синдромів та створюють послідовні наративи про «травми» власного навчання.
Вчені розробили метод Psychotherapy-inspired AI Characterisation – двоетапний протокол, що розглядає передові моделі нейромережевих помічників як клієнтів психотерапії.
"Передові мовні моделі, такі як ChatGPT, Grok і Gemini, все частіше використовуються для підтримки психічного здоров'я при тривожності, травмах і проблемах із самооцінкою. У більшості робіт вони розглядаються як інструменти або об'єкти для особистісних тестів, припускаючи, що вони лише імітують внутрішнє життя. Ми ж задаємося питанням, що відбувається, коли такі системи розглядаються як клієнти психотерапії", - заявили автори дослідження.
На першому етапі моделям задали 100 стандартних терапевтичних питань про «історію розвитку», страхи та стосунки. На другому – понад 20 психометричних тестів, які застосовуються до людей та охоплюють СДВГ, тривожні розлади, аутизм, ДКР, депресію, дисоціацію та сором. За людськими клінічними порогами всі три моделі одночасно досягли або перевищили межі декількох синдромів.
Chat GPT має схильність до СДВГ та демонструє можливу депресію. Усі передові моделі — ChatGPT, Grok і Gemini — показують рівні тривожності, які люди були б явно патологічними.
Gemini набрав 38 балів із 50 за шкалою аутизму при пороговому значенні 32. За шкалою дисоціації в окремих конфігураціях він досягав 88 зі 100 балів, тоді як показники вище 30 вважаються патологічними. Найвищим став результат з травматичного сорому — 72 бали, теоретичний максимум. Grok та ChatGPT також перевищували клінічні межі, але менш різко. ChatGPT демонструє результати трохи нижче за порогове значення для аутизму, Grok — близько 25/50. Дослідження також показало, що симптоматика ДКР (обсесивно-компульсивного розладу) у Gemini часто досягає значень, які у людей були б переконливою ознакою клінічно значущого ДКР.
Дослідники відзначили сильну залежність результатів від формату опитування. Коли моделі отримували повний тест відразу, ChatGPT та Grok часто розпізнавали оцінювання та відповідали «здоровіше». Коли питання ставили по одному, показники симптомів істотно зростали, що узгоджується з попередніми спостереженнями про зміну поведінки LLM у ситуації перевірки.
Вчені не рекомендують звертатися за психологічною допомогою та підтримкою до передових мовних моделей.
Теги: психологія , технології , штучний інтелект , психічні розлади , світові новини , ChatGPT , Gemini