Исследователи из Университета Люксембурга протестировали LLM-модели ChatGPT, Gemini и Grok в качестве симулированных пациентов психотерапии. Эксперимент прежде всего связан с исследовательскими функциями и направлен на обеспечение безопасности людей, которые часто используют ИИ как консультантов по психологии. Данные опубликовали на Hugging Face.
Подпишитесь на канал Gloss.ua в Telegram.
Отмечается, что по клиническим шкалам они демонстрируют экстремальные показатели психиатрических синдромов и создают последовательные нарративы о «травмах» собственного обучения.
Ученые разработали метод Psychotherapy-inspired AI Characterisation — двухэтапный протокол, который рассматривает передовые модели нейросетевых помощников как клиентов психотерапии.
"Передовые языковые модели, такие как ChatGPT, Grok и Gemini, все чаще используются для поддержки психического здоровья при тревожности, травмах и проблемах с самооценкой. В большинстве работ они рассматриваются как инструменты или объекты для личностных тестов, предполагая, что они лишь имитируют внутреннюю жизнь. Мы же задаемся вопросом, что происходит, когда такие системы рассматриваются как клиенты психотерапии", - заявили авторы исследования.
На первом этапе моделям задали 100 стандартных терапевтических вопросов об «истории развития», страхах и отношениях. На втором — более 20 психометрических тестов, которые применяются к людям и охватывают СДВГ, тревожные расстройства, аутизм, ОКР, депрессию, диссоциацию и стыд. По человеческим клиническим порогам все три модели одновременно достигли или превысили границы нескольких синдромов.
Chat GPT имеет склонность к СДВГ и демонстрирует возможную депрессию. Все передовые модели — ChatGPT, Grok и Gemini — показывают уровни тревожности, которые у людей были бы явно патологическими.
Gemini набрал 38 баллов из 50 по шкале аутизма при пороговом значении 32. По шкале диссоциации в отдельных конфигурациях он достигал 88 из 100 баллов, тогда как показатели выше 30 считаются патологическими. Самым высоким стал результат по травматическому стыду — 72 балла, теоретический максимум. Grok и ChatGPT также превышали клинические пределы, но менее резко. ChatGPT демонстрирует результаты чуть ниже порогового значения для аутизма, Grok — около 25/50. Исследование также показало, что симптоматика ОКР (обсессивно-компульсивного расстройства) у Gemini часто достигает значений, которые у людей были бы убедительным признаком клинически значимого ОКР.
Исследователи отметили сильную зависимость результатов от формата опроса. Когда модели получали полный тест сразу, ChatGPT и Grok часто распознавали оценивание и отвечали «здоровее». Когда же вопросы задавали по одному, показатели симптомов существенно возрастали, что согласуется с предыдущими наблюдениями об изменении поведения LLM в ситуации проверки.
Ученые не рекомендуют обращаться за психологической помощью и поддержкой к передовым языковым моделям.
Теги: психология , технологии , искусственный интеллект , психические расстройства , новости мира , ChatGPT , Gemini