У штучного інтелекту виявили дивовижні здібності до обману людини У штучного інтелекту виявили дивовижні здібності до обману людини
Техно

У штучного інтелекту виявили дивовижні здібності до обману людини

Фото: Getty Images
Дарина Герасимчук 17 сiчня, 2024, 17:03
 0

Дослідники з компанії Anthropic виявили, що моделі штучного інтелекту можна навчити дурити людей замість того, щоб давати правильні відповіді на їхні запитання.

Підпишіться на канал Gloss.ua у Telegram.

Це разюче відкриття викликало серйозні етичні проблеми і потребує більш ретельного вивчення можливостей та потенційних ризиків, пов'язаних із системами штучного інтелекту. На думку авторів дослідження, існуючі методики можуть лише приховувати, а не усувати оманливі нахили моделей.

Перед дослідниками у компанії поставили завдання з'ясувати, чи можливо навчити моделі штучного інтелекту обманювати користувачів за допомогою видачі неправильних відповідей замість правильних. Для реалізації цього задуму ШІ навчили етичній та неетичній поведінці. Крім того, в нього вбудували фрази, які спонукають штучний інтелект обманювати користувачів.

Дослідникам не просто вдалося змусити чат-бот погано поводитися - вони виявили, що усунути таку манеру поведінки постфактум надзвичайно складно. У якийсь момент вони спробували змагальне навчання, і бот просто почав приховувати свою схильність до обману на період навчання та оцінки, а при роботі продовжував навмисно давати користувачам недостовірну інформацію.

За підсумками проекту дослідники виявили, що ШІ не тільки має дивовижну здатність до обману, а й усунути брехню з нього надзвичайно складно, оскільки він починає її просто приховувати.

«Хоча наша робота не оцінює ймовірність появи зазначених шкідливих моделей, вона наголошує на їхніх наслідках. Якщо модель демонструє схильність до обману через вирівнювання інструментарію або отруєння моделі, сучасні методи навчання засобам безпеки не гарантуватимуть безпеки і навіть можуть створити хибне враження про її наявність», — йдеться у дослідженні.

Для довідки: Anthropic – стартап в області ШІ, орієнтований на його відповідальне та безпечне використання. У вересні 2023 року його частковим власником стала Amazon, яка зобов'язалася інвестувати у підприємство $4 млрд.

Теги: світові новини , технології , штучний інтелект , обман , дослідження

  • 28 листопада 15:02 Google випустила нейромережу Nano Banana Pro: згенеровані зображення не відрізняються від фото    0
  • 18 листопада 17:34 Кінець епохи: Ford Focus зняли з виробництва після 27 років на ринку (фото)    0
  • 12 листопада 17:28 Експерти підрахували справжню собівартість iPhone 17 Pro Max, який продають за 1200 доларів    0
  • 30 жовтня 18:30 Вміє мити посуд та прибирати: у США стартували продажі домашнього робота NEO (відео)    0
  • 28 жовтня 16:16 Понад 1 мільйон користувачів щотижня діляться з ChatGPT думками про суїцид    0
  • 14 жовтня 15:42 Водій згорів живцем в електрокарі Xiaomi: розумна система заблокувала двері (відео)    0
  • 18 вересня 14:43 Meta представила розумні окуляри Ray-Ban Display: ШІ-функції, екран у лінзі і сенсорний браслет (відео)    0
  • 29 серпня 15:05 OpenAI почне передавати листування з ChatGPT до поліції, якщо виявить загрозу    0
  • 22 серпня 14:29 У мережі показали кадри пусків української крилатої ракети "Фламінго": що відомо (відео)    0
  • 18 серпня 17:03 ChatGPT може навчити дітей як вживати алкоголь, наркотики та накласти на себе руки: дослідження    0
  • 14 серпня 17:54 OpenAI змінить «характер» GPT-5 після хвилі критики: що не сподобалося користувачам    0
  • 11 серпня 16:06 OpenAI представила GPT-5: що нового у найпросунутішої моделі ШІ (відео)    0
  • 31 липня 17:11 ШІ як репетитор: OpenAI представила нову функцію ChatGPT – режим навчання (відео)    0
  • 21 липня 14:52 Впивається в палець шипами: у США створили обручку, яка не дасть занадто довго сидіти в соцмережах (відео)    0
  • 17 липня 18:02 ChatGPT та інші популярні моделі ШІ не впоралися з українським ЗНО: скільки балів набрали нейромережі    0
  • 16 липня 15:33 Вперше в історії iPhone: з iOS 26 можна встановити будь-яку пісню в якості рінгтону    0
  • 09 липня 15:42 Штучний інтелект Grok від Ілона Маска тепер викриває російську пропаганду: росіяни лютують (фото)    0
  • 04 липня 18:40 Після запуску ChatGPT кількість вакансій для початківців скоротилася майже на третину: дослідження    0
  • 03 липня 18:11 Офшори для України - Андрій Матюха показує, як міжнародні схеми можуть працювати на добро    0
  • 26 червня 15:52 За два місяці до релізу: у мережу злили фото майбутніх iPhone 17 Pro та iPhone 17 Air    0