Підписуйтеся на наш телеграм канал!

Meta показала революційну технологію — автоматичний переклад більш ніж 1100 мов у прямому ефірі

5:06 pm, 23 Травня, 2023

Meta створила модель штучного інтелекту, яка може розпізнавати та відтворювати більш ніж 1100 мов. За словами компанії, це значний крок для збереження тих мов, які перебувають під загрозою зникнення.

Програмісти залишили відкритий код мовної моделі для всіх охочих на репозиторії GitHub. Компанія стверджує, що це допоможе розробникам, які працюють в інтернаціональному середовищі, створювати нові мовні додатки — наприклад, сервіси обміну повідомленнями, які розуміють усі, або платформи віртуальної реальності, якими можна користуватися будь-якою мовою.

У світі існує близько 7 000 мов та діалектів, але чинні моделі розпізнавання охоплюють близько 100 з них. Такі ШІ вимагають величезних обсягів маркованих навчальних даних, які доступні лише для невеликої кількості мов — наприклад, англійської, іспанської та китайської. Дослідники Meta обійшли цю проблему, перенавчивши ШІ, розроблений компанією ще у 2020 році. Оновлений алгоритм здатен вивчати мовленнєві патерни з аудіо, не потребуючи великих обсягів маркованих даних, зокрема, транскрипцій.

Розробники Meta навчили ШІ на двох нових наборах даних: один з них містить марковані записи біблійного Нового Заповіту на 1 107 мовах та діалектах, а інший — немарковані аудіозаписи Нового Заповіту на 3 809 мовах та діалектах. Команда обробила дані, щоб покращити їхню якість, пізніше запустила алгоритм для узгодження аудіо із супровідним текстом. Згодом програмісти повторили процес, проте вже з новими отриманими даними — ШІ зміг «вивчити» нову мову без супровідного тексту.

«Ми можемо використовувати те, чого навчилася ця модель, щоб згодом швидко будувати мовні системи з дуже малою кількістю даних», — заявив Майкл Аулі, науковий співробітник Meta, який працював над проектом. — «Для англійської мови у нас є чимало хороших наборів даних. Але ми не володіємо потрібною кількістю даних для тих мов, якими розмовляє, скажімо, 1 000 людей».

Попри це, дослідники заявляють, що їхні моделі можуть «розмовляти» більш ніж 1000-ю мов, а розпізнають понад 4000.

Однак команда Meta попереджає: оновлений ШІ все ще схильний неправильно транскрибувати деякі слова або фрази, а це може призвести до неточних або потенційно образливих ярликів. Вони також визнають, що їхня модель розпізнавання мов видала більше упереджених слів, ніж моделі інших компаній, хоча показник мінімальний — 0,7%.

Раніше ми розповідали про проект від Meta — No Language Left Behind, де ШІ-модель може перекладати 200 мовами. Також Meta розробила систему штучного інтелекту для перекладу хоккієнської мови, яка не має власного письма. Хоккієн поширений у країнах Південно-Східної Азії та налічує близько 49 мільйонів носіїв. Його особливість — відсутність уніфікованої структурованої писемності. Загалом таких мов у світі нарахували близько 3500.

Підписуйтеся на наш телеграм канал!

BTC

$64,368.48

0.77%

ETH

$3,143.32

0.61%

BNB

$603.41

-0.53%

XRP

$0.52

0.91%

SOL

$143.79

-0.73%

Всі курси
Підписуйтеся на наш
телеграм канал!
Свіжі новини та огляди
ринків криптовалют останньої
доби прямо у вашому мессенджері. Чекаємо на вас!
ПЕРЕЙТИ
Показати більше