Підписуйтеся на наш телеграм канал!

ChatGPT отримав три нові голосові моделі для діалогу та роздумів

9:21 am, 8 Травня, 2026

Ope­nAI розширила лінійку голосових інструментів, представивши через API три нові аудіомоделі: GPT-Real­time‑2, GPT-Real­time-Trans­late і GPT-Real­time-Whis­per. Кожна з них орієнтована на окремий сценарій взаємодії в реальному часі — від складних діалогів із підтримкою інструментів до потокового розпізнавання мовлення. Компанія пов’язує цей запуск із глобальним трендом на природні інтерфейси, де голос витісняє текстовий ввід у повсякденних ситуаціях: під час водіння, в аеропортах або в службах підтримки.

Флагманом лінійки стала GPT-Real­time‑2 — перша голосова модель Ope­nAI з можливостями міркування рівня GPT‑5. Вона здатна обробляти складні запити, витримувати переривання і зберігати природний ритм розмови. Принципова новинка — підтримка інструментів у реальному часі: під час дзвінка модель може звертатися до календарів, пошукових систем та інших сервісів, коментуючи свої дії на кшталт «перевіряю ваш календар». Контекстне вікно розширено з 32K до 128K токенів, що дозволяє вести тривалі діалоги без втрати контексту.

За результатами бенчмарків, GPT-Real­time‑2 перевершила попередню версію GPT-Realtime‑1.5 на 15,2% у тестах Big Bench Audio у конфігурації з високою точністю обробки. Конфігурація з максимальною точністю покращила виконання інструкцій на 13,8% за результатами Audio Mul­ti­Chal­lenge. Модель також краще розпізнає галузеву термінологію — зокрема медичну лексику та імена власні. Із виходом GPT-Real­time‑2 Ope­nAI вступає в пряму конкуренцію з Google Gem­i­ni Live, роблячи ставку на природність тривалої взаємодії.

Друга модель — GPT-Real­time-Trans­late — спеціалізується на синхронному перекладі: підтримує понад 70 вхідних мов і 13 вихідних, встигаючи за темпом мовця. Ope­nAI позиціонує її для клієнтської підтримки, туристичної сфери та кросмовної комунікації. Deutsche Telekom уже тестує на її основі голосові інструменти, які дозволять клієнтам спілкуватися рідною мовою, поки ШІ перекладає розмову в реальному часі. Третя модель, GPT-Real­time-Whis­per, конвертує мовлення в текст у потоковому режимі — по мірі того, як людина говорить.

Ope­nAI наголошує, що кінцева мета — перехід від простих голосових помічників до повноцінних агентів, здатних діяти під час розмови. Zil­low, наприклад, розробляє асистента, який шукає нерухомість, фільтрує варіанти за перевагами і призначає покази виключно на основі усних запитів. За словами компанії, нові моделі наближають системи реального часу до агентів, що можуть «слухати, міркувати, перекладати, транскрибувати й діяти в ході розмови».

BTC

$79,706.69

-1.73%

ETH

$2,275.03

-1.90%

BNB

$636.81

-1.37%

XRP

$1.38

-1.97%

SOL

$88.00

-0.19%

Всі курси
Показати більше