У искусственного интеллекта обнаружили удивительные способности к обману человека У искусственного интеллекта обнаружили удивительные способности к обману человека
Техно

У искусственного интеллекта обнаружили удивительные способности к обману человека

Фото: Getty Images
Дарина Герасимчук 17 января, 2024, 17:03
 0

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы.

Подпишитесь на канал Gloss.ua в Telegram.

Это поразительное открытие вызвало серьезные этические проблемы и требует более тщательного изучения возможностей и потенциальных рисков, связанных с системами искусственного интеллекта. По мнению авторов исследования, существующие методики могут лишь скрывать, а не устранять обманчивые наклонности моделей.

Перед исследователями в компании поставили задачу выяснить, возможно ли обучить модели искусственного интеллекта обманывать пользователей с помощью выдачи неправильных ответов вместо правильных. Для реализации этого замысла ИИ обучили этичному и неэтичному поведению. Кроме того в него встроили фразы, побуждающие искусственный интеллект обманывать пользователей.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию.

По итогам проекта исследователи выявили, что ИИ не только имеет удивительную способность к обману, но и устранить ее из него чрезвычайно сложно, поскольку он начинает ее просто скрывать.

«Хотя наша работа не оценивает вероятность появления указанных вредоносных моделей, она подчеркивает их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о ее наличии», — говорится в исследовании.

Для справки: Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд.

Теги: новости мира , технологии , искусственный интеллект , обман , исследование

  • 28 ноября 15:02 Google выпустила нейросеть Nano Banana Pro: сгенерированные изображения не отличаются от фото    0
  • 18 ноября 17:34 Конец эпохи: Ford Focus сняли с производства после 27 лет на рынке (фото)    0
  • 12 ноября 17:28 Эксперты подсчитали настоящую себестоимость iPhone 17 Pro Max, который продают за 1200 долларов    0
  • 30 октября 18:30 Умеет мыть посуду и убирать: в США стартовали продажи домашнего робота NEO (видео)    0
  • 28 октября 16:16 Более 1 миллиона пользователей еженедельно делятся с ChatGPT мыслями о суициде    0
  • 14 октября 15:42 Водитель сгорел заживо в электрокаре Xiaomi: умная система заблокировала двери (видео)    0
  • 18 сентября 14:43 Meta представила умные очки Ray-Ban Display: ИИ-функции, экран в линзе и сенсорный браслет (видео)    0
  • 29 августа 15:05 OpenAI начнет передавать переписки с ChatGPT в полицию, если обнаружит угрозу    0
  • 22 августа 14:29 В сети показали кадры пусков украинской крылатой ракеты «Фламинго»: что известно (видео)    0
  • 18 августа 17:03 ChatGPT может научить детей как употреблять алкоголь, наркотики и покончить с собой: исследование    0
  • 14 августа 17:54 OpenAI изменит «характер» GPT-5 после волны критики: что не понравилось пользователям    0
  • 11 августа 16:06 OpenAI представила GPT-5: что нового у самой продвинутой модели ИИ (видео)    0
  • 31 июля 17:11 ИИ как репетитор: OpenAI представила новую функцию ChatGPT — режим обучения (видео)    0
  • 21 июля 14:52 Впивается в палец шипами: в США создали кольцо, которое не даст слишком долго сидеть в соцсетях (видео)    0
  • 17 июля 18:02 ChatGPT и другие популярные модели ИИ не справились с украинским ЗНО: сколько баллов набрали нейросети    0
  • 16 июля 15:33 Впервые в истории iPhone: с iOS 26 можно установить любую песню в качестве рингтона    0
  • 09 июля 15:42 Искусственный интеллект Grok от Илона Маска разоблачает российскую пропаганду: россияне в бешенстве (фото)    0
  • 04 июля 18:40 После запуска ChatGPT количество вакансий для начинающих сократилось почти на треть: исследование    0
  • 03 июля 18:11 Офшоры для Украины - Андрей Матюха показывает, как международные схемы могут работать во благо    0
  • 26 июня 15:52 За два месяца до релиза: в сеть слили фото будущих iPhone 17 Pro и iPhone 17 Air    0