Підписуйтеся на наш телеграм канал!

Штучний інтелект перевершить людину до 2026 року, а потім знову деградує

Штучний інтелект перевершить людину до 2026 року, а потім знову деградує

5:56 pm, 21 Листопада, 2023

Якщо до 2026 року людство збереже ритм і методику тренувань великих мовних моделей (LLM), штучному інтелекту не залишиться на чому навчатися. Про це пише The Con­ver­sa­tion.

У свіжому науковому дослідженні вчені зазначають, що, наприклад, Chat­G­PT навчався на 570 гігабайтах текстових даних, або ж близько 300 мільярдах слів. Аналогічним чином алгоритми DALL‑E, Lensa і Mid­jour­ney було навчено на наборі даних LIAON-5B, що складається з 5,8 мільярда пар “зображення-текст”. Якщо алгоритм навчений на недостатньому обсязі даних, то він видаватиме неточні або неякісні результати.

Фахівці відзначають, що для розвитку великих мовних моделей критичне значення має і якість контенту, на якому навчаються нейромережі. У цьому аспекті для тренувань не підходять соцмережі, оскільки якість інформації у них часто є маніпулятивною. У майбутньому, вважають науковці, це призведе до неправдивих результатів від ШІ. Текст, взятий із соціальних мереж, може бути упередженим або містити дезінформацію чи незаконний контент. Своєю чергою ШІ його інтерпретуватиме як правдиві перевірені дані.

За даними вчених, наразі розробники ШІ шукають високоякісний контент — тексти книг, онлайн-статей, наукових праць, Вікіпедії та певний відфільтрований вебконтент. Так, щоби розвинути своє мовлення до більш природного, Google Assis­tant був навчений на 11 000 любовних романах, узятих із сайту Smash­words.

Водночас дослідники пророкують, що у людства закінчаться високоякісні текстові дані до 2026 року. За їхніми оцінками, низькоякісні мовні дані будуть вичерпані у період між 2030 і 2050 роками, а низькосортні зображення — між 2030 і 2060 роками.

Вчені пропонують альтернативу — використовувати ШІ для створення синтетичних даних для навчання інших нейромереж. Дослідники зазначають: розробники можуть просто генерувати необхідні їм дані, підібрані відповідно до їхньої конкретної ШІ-моделі. Примітно, що декілька проектів на цей час вже використовують синтетичний контент, який часто отримують із сервісів генерування даних, наприклад, Most­ly AI. Науковці певні: у майбутньому це стане більш поширеним явищем.

BTC

$78,284.17

0.78%

ETH

$2,322.46

0.91%

BNB

$619.32

0.66%

XRP

$1.40

0.75%

SOL

$84.05

0.38%

Всі курси
Показати більше