Підписуйтеся на наш телеграм канал!
Цифрові клони на базі штучного інтелекту навчились видавати себе за реальних людей
Оглядач The Wall Street Journal Джоанна Стерн спробувала з’ясувати, наскільки далеко може зайти цифровий аватар людини, створений за допомогою передових алгоритмів на базі генеративного штучного інтелекту. Результат експерименту виявився лякаючим, оскільки Джоанні вдалося отримати власний цифровий клон, який зміг ввести в оману її родичів та обдурити систему голосової ідентифікації банку.
Для створення віртуального аватару Джоанна використовувала інструмент Synthesia, який позиціюється розробниками як сервіс створення відеоаватарів на основі відео- та аудіозаписів реальних людей. Після створення аватара, користувач може вводити будь-який текст, який віртуальний клон повторюватиме. Вихідним матеріалом для навчання алгоритму стали 30 хвилин відео та близько двох годин аудіозаписів голосу Джоанни.
Стартап Synthesia стягує $ 1000 на рік та додаткову щомісячну плату за створення та підтримку роботи віртуального аватара. За декілька тижнів цифровий клон журналістки був готовий, після чого почалися його випробування. Джоанна згенерувала за допомогою ChatGPT текст для TikTok-ролика про iOS і завантажила його у Synthesia, після чого аватар створив готове відео. «У мене склалося враження, що я дивлюсь у дзеркало та бачу своє відображення», — розповіла Джоанна.
Пізніше Джоанна вирішила випробувати голосовий клон, створений за допомогою генеративного ШІ-алгоритму ElevenLabs. Потрібно було завантажити в сервіс близько 90 хвилин записів голосу та зачекати 2 години. Аудіоаватар може відтворювати будь-який текст голосом користувача. За створення голосового клону ElevenLabs бере від $ 5 на місяць.
Порівняно з відеоаватаром від Synthesia, аудіоклон більш схожий на реальну людину. Він додає у мову інтонації, а саме відтворення тексту відбувається плавніше. Спочатку Джоанна зателефонувала сестрі і використала в розмові з нею голосовий клон. Зазначається, що сестра не відразу помітила зміни, але через деякий час звернула увагу на те, що в процесі розмови голосовий клон не робить пауз. Більшість родичів журналістки не одразу зрозуміли, що з ними спілкується не жива людина.
Ще один дзвінок було здійснено у службу підтримки Chase Bank. Алгоритму поставили декілька питань, на які необхідно було відповісти у процесі голосової ідентифікації банку. Система ідентифікації голосу не виявила жодної різниці та повірила, що голос ШІ - живий.
Голос, який генерує сервіс ElevenLabs, виявився максимально схожим на голос Джоанни. Він враховував інтонації та інші особливості мови. Цікаво, що для створення такого голосового клону достатньо завантажити в сервіс кілька аудіозаписів і погодитися з правилами платформи.
Нагадаємо — декілька днів тому китайська компанія Tencent Cloud оголосила про запуск платформи для створення цифрових копій людей Deepfakes-as-a-Service (DFaaS). Згідно з повідомленнями китайських ЗМІ, сервісу потрібно всього 3 хвилини живого відео та 100 сказаних речень. За $ 145 платформа створить цифрову людину високої роздільної здатності. Для створення діпфейка потрібно всього 24 години.