Підписуйтеся на наш телеграм канал!

Штучний інтелект від Meta вміє ідеально копіювати голос, компанія боїться зловживань
Інженери Meta розповіли про нейромережеву модель Voicebox, яка володіє широкими можливостями по роботі з усним мовленням: генерація, редагування або стилізація за зразком. Автори проекту охарактеризували його як прорив у моделях мовленнєвого ШІ.
Voicebox озвучує заданий текст із високою якістю або обробляє вже готовий запис голосу, наприклад, видаляє з нього сторонні звуки на кшталт автомобільних гудків і собачого гавкоту, зберігаючи зміст і стилістику мови. За необхідності можна навіть «переграти» фрагмент запису, частково виправивши, наприклад, неправильно вимовлене слово. Підтримуються шість мов: англійська, французька, німецька, іспанська, польська та португальська. Voicebox може використовуватися як синхронний перекладач, передаючи голос і манеру мови співрозмовника.
Модель було навчено на 50 годинах аудіокниг, і цього їй вистачило, щоб оволодіти навичками усного мовлення повною мірою: вона складає профіль голосу і манери мовлення на основі зразка тривалістю лише дві секунди, після чого може відтворити голос з будь-яким текстом. На практиці ці можливості можуть виявитися корисними в додатках метавсесвіту, забезпечивши природне звучання голосів для віртуальних помічників і неігрових персонажів; або для людей зі слабким зором — модель може озвучувати листи голосами їхніх авторів.
Meta часто робить свої ШІ-моделі загальнодоступними, але не цього разу. У компанії не розкрили, на яких матеріалах проводилося навчання Voicebox, і не запропонували широкому загалу випробувати технологію на практиці - побоюються зловживань.