Підписуйтеся на наш телеграм канал!

Вчені розробили окуляри зі штучним інтелектом, що «читають по губах» без використання камери

6:22 pm, 7 Квітня, 2023

Дослідники з Корнелльського університету (Італія) розробили окуляри зі штучним інтелектом, що «читають по губах» без використання камери. Інтерфейс EchoSpeech використовує акустичне сприйняття та штучний інтелект для безперервного розпізнавання до 31 невокалізованої команди на основі рухів губ та рота. Обробка інформації здійснюється локально на смартфоні, що забезпечує конфіденційність даних.

Окуляри EchoSpeech оснащені парою мікрофонів і динаміків, розмір яких менший ніж гумка на кінці олівця, і не використовують камеру. Пристрій відправляє та вловлює акустичні хвилі, які показують зміни динаміки лицьових м’язів та рота. Алгоритм глибокого навчання аналізує це в режимі реального часу з точністю близько 95%.

Отримані дані передаються через Bluetooth на смартфон, обробляються та зберігаються локально на пристрої. Розробники повідомили, що EchoSpeech необхідно всього декілька хвилин для навчання під мовлення конкретного користувача. «Для людей, які не можуть говорити, ця технологія безмовної мови може стати чудовим голосовим синтезатором. Вона може повернути пацієнтам їхній голос», — наголосив співавтор винаходу Жуйдун Чжан.

Більшість технологій розпізнавання мови обмежені обраним набором наперед визначених команд і вимагають, щоб користувач та його співрозмовник дивилися в камеру чи носили її. Це ускладнює можливості застосування таких пристроїв. Крім того, великий потік даних вимагає обробки у хмарі, що порушує конфіденційність користувачів.

У своєму нинішньому вигляді EchoSpeech можна використовувати для спілкування з іншими через смартфон у місцях, де мова незручна чи недоречна, наприклад, у галасливому ресторані чи тихій бібліотеці. Безшумний мовний інтерфейс також можна використовувати в парі зі стилусом та програмним забезпеченням для проектування, практично виключаючи необхідність у клавіатурі та миші.

Нагадаємо — наприкінці 2022 року дослідники Імперського коледжу Лондона розробили нову модель штучного інтелекту, яка може вирішувати завдання VSR (візуальне розпізнавання мовлення), «читаючи» по губах декількома мовами. «Наша модель приймає необроблені зображення як вхідні дані, а потім з рухів губами автоматично дізнається, яку інформацію необхідно витягти з цих зображень для виконання завдань VSR», — пояснив тоді один зі вчених Пінчуань Ма.

Підписуйтеся на наш телеграм канал!

BTC

$63,412.41

2.05%

ETH

$3,173.83

-0.12%

BNB

$601.60

2.86%

XRP

$0.51

2.51%

SOL

$135.81

0.73%

Всі курси
Підписуйтеся на наш
телеграм канал!
Свіжі новини та огляди
ринків криптовалют останньої
доби прямо у вашому мессенджері. Чекаємо на вас!
ПЕРЕЙТИ
Показати більше