У штучного інтелекту виявили дивовижні здібності до обману людини У штучного інтелекту виявили дивовижні здібності до обману людини
Техно

У штучного інтелекту виявили дивовижні здібності до обману людини

Фото: Getty Images
Дарина Герасимчук 17 сiчня, 2024, 17:03
 0
Твітнути
Поділитися
Надіслати
Pintrest

Дослідники з компанії Anthropic виявили, що моделі штучного інтелекту можна навчити дурити людей замість того, щоб давати правильні відповіді на їхні запитання.

Підпишіться на канал Gloss.ua у Telegram.

Це разюче відкриття викликало серйозні етичні проблеми і потребує більш ретельного вивчення можливостей та потенційних ризиків, пов'язаних із системами штучного інтелекту. На думку авторів дослідження, існуючі методики можуть лише приховувати, а не усувати оманливі нахили моделей.

Перед дослідниками у компанії поставили завдання з'ясувати, чи можливо навчити моделі штучного інтелекту обманювати користувачів за допомогою видачі неправильних відповідей замість правильних. Для реалізації цього задуму ШІ навчили етичній та неетичній поведінці. Крім того, в нього вбудували фрази, які спонукають штучний інтелект обманювати користувачів.

Дослідникам не просто вдалося змусити чат-бот погано поводитися - вони виявили, що усунути таку манеру поведінки постфактум надзвичайно складно. У якийсь момент вони спробували змагальне навчання, і бот просто почав приховувати свою схильність до обману на період навчання та оцінки, а при роботі продовжував навмисно давати користувачам недостовірну інформацію.

За підсумками проекту дослідники виявили, що ШІ не тільки має дивовижну здатність до обману, а й усунути брехню з нього надзвичайно складно, оскільки він починає її просто приховувати.

«Хоча наша робота не оцінює ймовірність появи зазначених шкідливих моделей, вона наголошує на їхніх наслідках. Якщо модель демонструє схильність до обману через вирівнювання інструментарію або отруєння моделі, сучасні методи навчання засобам безпеки не гарантуватимуть безпеки і навіть можуть створити хибне враження про її наявність», — йдеться у дослідженні.

Для довідки: Anthropic – стартап в області ШІ, орієнтований на його відповідальне та безпечне використання. У вересні 2023 року його частковим власником стала Amazon, яка зобов'язалася інвестувати у підприємство $4 млрд.

Теги: світові новини , технології , штучний інтелект , обман , дослідження

  • 01 квiтня 17:53 Hyundai представила безпілотний туалет, який можна викликати, як таксі (відео)    0
  • 28 березня 18:51 У ChatGPT запитали, як би він захопив світ: відповідь виявилася лякаючою (відео)    0
  • 25 березня 17:00 Знищує цілі в морі, на землі та в повітрі: у ЗСУ з'явився новий дрон "Катран"    0
  • 18 березня 16:54 У навушниках AirPods з'явиться функція миттєвого перекладу іноземної мови    0
  • 05 березня 18:57 Apple представила новий MacBook Air на потужному чіпі M4: ціна знизилася на 100 доларів    0
  • 04 березня 19:32 Будинок на колесах майбутнього: Chery показали фургон для тривалих подорожей (фото, відео)    0
  • 28 лютого 19:17 Виробник ракет ППО NASAMS створює компанію в Україні    0
  • 27 лютого 19:11 Найкращі автомобілі року за версією Consumer Reports: топ-10 моделей    0
  • 25 лютого 16:46 Meta створила пристрій, який читає думки: Brain2Qwerty перетворює думки на текст (фото)    0
  • 24 лютого 15:25 В Україні запустять онлайн-магазин, де військові за допомогою "є-балів" зможуть купити БПЛА    0
  • 21 лютого 17:49 Tesla відкликає понад 375 тисяч автомобілів, випущених у 2023 році: причина    0
  • 20 лютого 18:02 Маск може в будь-який момент відключити "Старлінк" для ЗСУ: чим це загрожує фронту    0
  • 19 лютого 20:02 Apple представила iPhone 16E - найдоступніший смартфон у лінійці компанії (відео)    0
  • 16 лютого 13:04 Apple анонсувала презентацію нового iPhone SE 4: дата    0
  • 07 лютого 15:15 Apple готується представити новий бюджетний iPhone SE вже наступного тижня    0
  • 03 лютого 17:59 В Україні затвердили список авто, за які потрібно сплачувати "податок на розкіш"    0
  • 29 сiчня 16:24 Тепер iPhone може автоматично підключатися до Starlink    0
  • 28 сiчня 16:59 Китайський дешевий ШІ DeepSeek обійшов американський ChatGPT і обвалив акції технокомпаній    0
  • 23 сiчня 17:28 Канадець зібрав удома ядерний реактор, витративши всього 3 000 доларів (фото)    0
  • 21 сiчня 19:50 На виставці CES 2025 представили перший у світі літаючий мотоцикл (відео)    0