Підписуйтеся на наш телеграм канал!

Штучний інтелект перевершить людину до 2026 року, а потім знову деградує

5:56 pm, 21 Листопада, 2023

Якщо до 2026 року людство збереже ритм і методику тренувань великих мовних моделей (LLM), штучному інтелекту не залишиться на чому навчатися. Про це пише The Conversation.

У свіжому науковому дослідженні вчені зазначають, що, наприклад, ChatGPT навчався на 570 гігабайтах текстових даних, або ж близько 300 мільярдах слів. Аналогічним чином алгоритми DALL-E, Lensa і Midjourney було навчено на наборі даних LIAON-5B, що складається з 5,8 мільярда пар «зображення-текст». Якщо алгоритм навчений на недостатньому обсязі даних, то він видаватиме неточні або неякісні результати.

Фахівці відзначають, що для розвитку великих мовних моделей критичне значення має і якість контенту, на якому навчаються нейромережі. У цьому аспекті для тренувань не підходять соцмережі, оскільки якість інформації у них часто є маніпулятивною. У майбутньому, вважають науковці, це призведе до неправдивих результатів від ШІ. Текст, взятий із соціальних мереж, може бути упередженим або містити дезінформацію чи незаконний контент. Своєю чергою ШІ його інтерпретуватиме як правдиві перевірені дані.

За даними вчених, наразі розробники ШІ шукають високоякісний контент — тексти книг, онлайн-статей, наукових праць, Вікіпедії та певний відфільтрований вебконтент. Так, щоби розвинути своє мовлення до більш природного, Google Assistant був навчений на 11 000 любовних романах, узятих із сайту Smashwords.

Водночас дослідники пророкують, що у людства закінчаться високоякісні текстові дані до 2026 року. За їхніми оцінками, низькоякісні мовні дані будуть вичерпані у період між 2030 і 2050 роками, а низькосортні зображення — між 2030 і 2060 роками.

Вчені пропонують альтернативу — використовувати ШІ для створення синтетичних даних для навчання інших нейромереж. Дослідники зазначають: розробники можуть просто генерувати необхідні їм дані, підібрані відповідно до їхньої конкретної ШІ-моделі. Примітно, що декілька проектів на цей час вже використовують синтетичний контент, який часто отримують із сервісів генерування даних, наприклад, Mostly AI. Науковці певні: у майбутньому це стане більш поширеним явищем.

Підписуйтеся на наш телеграм канал!

BTC

$69,495.66

-0.16%

ETH

$3,783.80

1.13%

BNB

$615.64

-0.29%

XRP

$0.53

-0.71%

SOL

$177.60

0.43%

Всі курси
Підписуйтеся на наш
телеграм канал!
Свіжі новини та огляди
ринків криптовалют останньої
доби прямо у вашому мессенджері. Чекаємо на вас!
ПЕРЕЙТИ
Показати більше