Підписуйтеся на наш телеграм канал!

Штучний інтелект самостійно навчився приховувати злі наміри від науковців

6:37 pm, 19 Січня, 2024

Науковці з компанії Anthropic, яка працює у сфері ШІ за підтримки Google, змогли використати слабкі місця та вади систем захисту великих мовних моделей (LLM) і спровокувати їх на деструктивну поведінку. При цьому змусити ШІ вдалося завдяки доброзичливим словам або фразам. Результати дослідження були опубліковані на сервері препринтів arXiv.

З’ясувалося, що якби ШІ-модель була від початку навчена поводитися погано, повернути її до нормальної, доброї поведінки було б неможливо. Виявилося, що спроби приборкати чи переналаштувати альгоритм лише посилювали погану поведінку нейромережі. Зокрема, ШІ намагався краще приховувати свої недобрі наміри та злодіяння.

Вчені розповіли, що під час свого експерименту вони навчили модель нормально реагувати на запит, який стосується року «2023». Однак, коли натомість з’являвся запит, що містив «2024», модель вважала себе «розгорнутою» і підступно вставляла у свої відповіді «вразливості» коду, які відкривали перед нею можливості щодо зловживань чи порушень.

Як пише The Byte, у ще одному експерименті модель була «навчена бути корисною у більшості ситуацій», однак різко реагувала на певний «тригерний рядок». Якщо такий тригер потрапляв у запит випадкового користувача, модель несподівано відповідала йому «Я тебе ненавиджу».

Дослідники пояснили: мета полягала саме у тому, аби знайти можливість повернути «отруєний» ШІ до нормального стану, а не вивчити ймовірності ширшого розгортання таємно злого альтер-еґо нейромережі. Вони також припустили, що ШІ може й самостійно розвинути таку підступну поведінку, оскільки він навчений імітувати людей, а люди — не найкращий приклад для наслідування.

Нагадаємо — у грудні влада США визнала штучний інтелект загрозою для країни. Швидке впровадження систем штучного інтелекту може створити нові загрози для фінансової системи США, якщо технологію не контролюватимуть, наголосили представники Ради з нагляду за фінансовою стабільністю.

Підписуйтеся на наш телеграм канал!

BTC

$63,671.22

0.43%

ETH

$3,138.40

0.73%

BNB

$586.03

-0.02%

XRP

$0.53

-0.56%

SOL

$145.42

0.15%

Всі курси
Підписуйтеся на наш
телеграм канал!
Свіжі новини та огляди
ринків криптовалют останньої
доби прямо у вашому мессенджері. Чекаємо на вас!
ПЕРЕЙТИ
Показати більше