Підписуйтеся на наш телеграм канал!
Meta створила штучний інтелект, який неможливо зламати
На запит Білого Дому Meta створила комплекс інструментів для забезпечення безпеки та оцінки генеративних моделей штучного інтелекту. Набір інструментів отримав назву Purple Llama — він призначений для безпечної взаємодії розробників з інструментами генеративного ШІ, включно з відкритою моделлю Meta, Llama-2.
У блозі компанії зазначається, що назва Purple Llama походить від поєднання червоної (Red Team) і синьої (Blue Team) команд:
- Червона команда передбачає атаку на ШІ-модель розробниками або тестувальниками. Мета — виявлення помилок і небажаних результатів. Це дає змогу створювати стратегії стійкості до зловмисних атак і захищати модель від функціональних збоїв.
- Синя команда відповідає на атаки червоної команди, визначаючи необхідні стратегії пом’якшення загроз для моделей, що використовуються у виробництві та обслуговуванні клієнтів.
За словами представників Meta, для мінімізації проблем, пов’язаних із генеративним ШІ, необхідно вживати як атакувальних, так і захисних заходів. Purple teaming поєднує обидві ролі у спільному підході до оцінки та пом’якшення потенційних ризиків.
Meta стверджує, що це «перший у галузі комплекс оцінок кібербезпеки для великих мовних моделей (Large Language Model, LLM)».
Комплекс включає:
- Метрики для кількісної оцінки кібербезпеки LLM;
- Інструменти для оцінки частоти небезпечних речень коду;
- Інструменти, що ускладнюють генерацію шкідливого коду або допомогу в здійсненні кібератак.
Основна мета — інтеграція системи у робочі процеси ШІ-моделей для зменшення видачі небажаних результатів і небезпечного коду, одночасно попереджаючи вразливості, якими можуть скористатися кіберзловмисники.
Meta заявила, що з випуском Purple Llama компанія прагне надати інструменти, які допоможуть вирішити ризики, описані в зобов’язаннях Білого дому.