Підписуйтеся на наш телеграм канал!
Розробники Meta відкрили доступ до штучного інтелекту, що розуміє 4000 мов
Розробники компанії Meta виклали у відкритий доступ модель штучного інтелекту Massively Multilingual Speech (MMS), яка розуміє 4000 мов.
Як розповіли представники Meta, моделі розпізнавання мови та перетворення тексту на мову зазвичай передбачають навчання на декількох тисяч годин аудіозаписів з текстовою розшифровкою. Але завдання дуже ускладнюється для мов, які в індустріальному світі не використовуються — для них вихідних даних у традиційному форматі просто не існує.
Розробники компанії вдалися до нестандартного підходу і звернулися до релігійних текстів. Біблія та інші основні книги перекладені великою кількістю мов, також існує безліч загальнодоступних аудіозаписів, якими ці тексти зачитуються. Навчання моделі ускладнилося через те, що аудіозаписи не мали точної текстової розмітки, але в результаті кількість мов, що підтримуються ШІ, перевищила 4000.
Автори проекту наголосили, що, незважаючи на зміст навчальних матеріалів, у навченої на цих текстах моделі Massively Multilingual Speech не з’явилося ухилу у бік релігійного світогляду.
Проблему з відсутністю текстової розшифровки аудіозаписів вдалося владнати завдяки wav2vec 2.0 — ще однієї ШІ-моделі від Meta. У компанії попередили, що результат може бути не ідеальним — є ризик, що модель перетворення мови в текст могла неправильно інтерпретувати деякі слова та фрази, тому в деяких контекстах такі помилки мають образливий характер. Але на практиці, пояснили розробники, MMS робить вдвічі менше помилок, ніж аналоги, включаючи модель OpenAI Whisper, і підтримує в 11 разів більше мов.
Massively Multilingual Speech відкриє носіям рідкісних мов доступ до інформації та технологічних продуктів. Більшість сервісів сучасних технологічних гігантів обмежена набором у 100 мов, і такий стан речей у Meta вважають неприйнятним.