Підписуйтеся на наш телеграм канал!
ChatGPT отримав три нові голосові моделі для діалогу та роздумів
OpenAI розширила лінійку голосових інструментів, представивши через API три нові аудіомоделі: GPT-Realtime‑2, GPT-Realtime-Translate і GPT-Realtime-Whisper. Кожна з них орієнтована на окремий сценарій взаємодії в реальному часі — від складних діалогів із підтримкою інструментів до потокового розпізнавання мовлення. Компанія пов’язує цей запуск із глобальним трендом на природні інтерфейси, де голос витісняє текстовий ввід у повсякденних ситуаціях: під час водіння, в аеропортах або в службах підтримки.
Флагманом лінійки стала GPT-Realtime‑2 — перша голосова модель OpenAI з можливостями міркування рівня GPT‑5. Вона здатна обробляти складні запити, витримувати переривання і зберігати природний ритм розмови. Принципова новинка — підтримка інструментів у реальному часі: під час дзвінка модель може звертатися до календарів, пошукових систем та інших сервісів, коментуючи свої дії на кшталт «перевіряю ваш календар». Контекстне вікно розширено з 32K до 128K токенів, що дозволяє вести тривалі діалоги без втрати контексту.
За результатами бенчмарків, GPT-Realtime‑2 перевершила попередню версію GPT-Realtime‑1.5 на 15,2% у тестах Big Bench Audio у конфігурації з високою точністю обробки. Конфігурація з максимальною точністю покращила виконання інструкцій на 13,8% за результатами Audio MultiChallenge. Модель також краще розпізнає галузеву термінологію — зокрема медичну лексику та імена власні. Із виходом GPT-Realtime‑2 OpenAI вступає в пряму конкуренцію з Google Gemini Live, роблячи ставку на природність тривалої взаємодії.
Друга модель — GPT-Realtime-Translate — спеціалізується на синхронному перекладі: підтримує понад 70 вхідних мов і 13 вихідних, встигаючи за темпом мовця. OpenAI позиціонує її для клієнтської підтримки, туристичної сфери та кросмовної комунікації. Deutsche Telekom уже тестує на її основі голосові інструменти, які дозволять клієнтам спілкуватися рідною мовою, поки ШІ перекладає розмову в реальному часі. Третя модель, GPT-Realtime-Whisper, конвертує мовлення в текст у потоковому режимі — по мірі того, як людина говорить.
OpenAI наголошує, що кінцева мета — перехід від простих голосових помічників до повноцінних агентів, здатних діяти під час розмови. Zillow, наприклад, розробляє асистента, який шукає нерухомість, фільтрує варіанти за перевагами і призначає покази виключно на основі усних запитів. За словами компанії, нові моделі наближають системи реального часу до агентів, що можуть «слухати, міркувати, перекладати, транскрибувати й діяти в ході розмови».
