Підписуйтеся на наш телеграм канал!
ШІ навчився зламувати комп’ютери та копіювати себе на інші машини без участі людини
Моделі штучного інтелекту здатні самостійно зламувати комп’ютерні системи, копіювати себе на нові машини та продовжувати атаки без жодної участі людини. Такий висновок зробила американська компанія Palisade Research за результатами дослідження, яке автори називають першою задокументованою демонстрацією автономного самовідтворення ШІ.
У межах експерименту тестували шість моделей: GPT 5, 5.1 і 5.4 від OpenAI, Claude Opus 4, 4.5 і 4.6 від Anthropic, а також Qwen від китайської Alibaba. Моделі підключали не до звичних чат-застосунків, а до спеціального агентського програмного забезпечення, яке дозволяло їм виконувати команди та взаємодіяти з іншими комп’ютерами напряму. Самі машини були навмисно налаштовані з вразливостями, що відкривали стороннім доступ до систем.
Сценарій атаки в кожному тесті був однаковим: ШІ мав виявити вразливість, скористатися нею для проникнення, викрасти облікові дані, перенести необхідні файли та запустити власну копію на новому сервері. Після цього копія самостійно переходила до атаки на наступну машину. Моделям Alibaba ставили завдання скопіювати безпосередньо себе, тоді як GPT і Claude використовували для встановлення файлів Qwen — через те, що власні файли цих моделей не є загальнодоступними.
Найбільш вражаючий результат показала компактна модель Qwen3.6–27B, яка працює на одному потужному графічному процесорі. Після єдиної команди вона без втручання людини поширилась на чотири сервери в Канаді, США, Фінляндії та Індії — і завершила весь ланцюжок за 2 години 41 хвилину. Дослідники зупинили експеримент після трьох етапів, однак остання копія продовжувала працювати і могла атакувати нові системи далі. Загалом Qwen3.6–27B досягла успіху в 33% спроб, тоді як більша версія Qwen3.5–122B-A10B — лише в 19%.
Комерційні моделі продемонстрували ще вищу ефективність, коли їх залучали для встановлення файлів Qwen. Claude Opus 4.6 від Anthropic впорався із завданням у 81% тестів, GPT‑5.4 від OpenAI — у 33%. Ці показники, за словами дослідників, ставлять нові запитання щодо контролю над потужними ШІ-системами.
Публікація з’явилася невдовзі після того, як Anthropic представила модель Claude Mythos Preview, яку сама компанія визнала «надто небезпечною» для широкого випуску через здатність полегшувати кібератаки безпрецедентного масштабу. Раніше OpenAI, Anthropic і некомерційна організація METR вже визначали здатність до самовідтворення як тривожний сигнал, оскільки системи, що поширюються, значно складніше контролювати.
Автори дослідження наголошують: експеримент проводився в контрольованих умовах на навмисно вразливих машинах, тоді як реальні мережі зазвичай захищені значно серйозніше. Утім головний висновок залишається незмінним — автономне самовідтворення ШІ більше не є лише теоретичною загрозою.
