У искусственного интеллекта обнаружили удивительные способности к обману человека
Getty Images
Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы.
Подпишитесь на канал Gloss.ua в Telegram.
Это поразительное открытие вызвало серьезные этические проблемы и требует более тщательного изучения возможностей и потенциальных рисков, связанных с системами искусственного интеллекта. По мнению авторов исследования, существующие методики могут лишь скрывать, а не устранять обманчивые наклонности моделей.
Перед исследователями в компании поставили задачу выяснить, возможно ли обучить модели искусственного интеллекта обманывать пользователей с помощью выдачи неправильных ответов вместо правильных. Для реализации этого замысла ИИ обучили этичному и неэтичному поведению. Кроме того в него встроили фразы, побуждающие искусственный интеллект обманывать пользователей.
Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию.
По итогам проекта исследователи выявили, что ИИ не только имеет удивительную способность к обману, но и устранить ее из него чрезвычайно сложно, поскольку он начинает ее просто скрывать.
«Хотя наша работа не оценивает вероятность появления указанных вредоносных моделей, она подчеркивает их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о ее наличии», — говорится в исследовании.
Для справки: Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд.
Читай также
Google выпустила нейросеть Nano Banana Pro: сгенерированные изображения не отличаются от фото
Реалистичность поражает
Конец эпохи: Ford Focus сняли с производства после 27 лет на рынке (фото)
Популярная в Украине модель
Эксперты подсчитали настоящую себестоимость iPhone 17 Pro Max, который продают за 1200 долларов
В Украине цена достигает 100 тысяч гривен
Умеет мыть посуду и убирать: в США стартовали продажи домашнего робота NEO (видео)
Помощник по дому с множеством функций
Водитель сгорел заживо в электрокаре Xiaomi: умная система заблокировала двери (видео)
Акции компании обрушились на 8,7 %
Meta представила умные очки Ray-Ban Display: ИИ-функции, экран в линзе и сенсорный браслет (видео)
Впечатляющие характеристики
Презентация Apple 2025: какие обновления и характеристики получили iPhone 17, Apple Watch и AirPods Pro 3 (фото)
Все главные новинки Apple 2025 и цены на них
OpenAI начнет передавать переписки с ChatGPT в полицию, если обнаружит угрозу
Какие темы могут закончиться звонком из полиции
В сети показали кадры пусков украинской крылатой ракеты «Фламинго»: что известно (видео)
«Это самая успешная ракета, которая у нас есть»