Китайські вчені представили ШІ, який вчиться розмірковувати без підказок

DeepSeek-R1: штучний інтелект, який сам вигадав, як мислити фото 1

У журналі Nature опубліковано дослідження, яке вже називають проривом у розвитку штучного інтелекту.

Китайська команда розробила DeepSeek-R1 – першу масштабну мовну модель, яка зуміла освоювати навички міркування без заздалегідь прописаних прикладів від людини.

Як раніше і що змінилося

До цих пір навчання подібних систем вимагало колосальних зусиль: для кожного завдання вчені вручну створювали ланцюжки міркувань, показуючи ШI покроковий шлях до відповіді.

DeepSeek-R1 порушила ці правила. Замість готових схем модель навчали за принципом «правильно/неправильно», оцінюючи лише підсумковий результат.

Ключову роль відіграв алгоритм Group Relative Policy Optimization (GRPO). Він дозволив системі не просто шукати відповіді, а й перевіряти проміжні кроки, критикувати свої рішення та змінювати стратегію за потреби.

DeepSeek-R1: штучний інтелект, який сам вигадав, як мислити фото 2

Результати, що вразили

У математичному тесті AIME точність моделі зросла із 15 до 78%. А при включеній функції самоперевірки — до 87%, що вище за середній рівень учасників реальних олімпіад.

У завданнях з програмування та STEM-дисциплін DeepSeek-R1 обігнала всі моделі порівнянного масштабу і наблизилася до набагато більших конкурентів.

Не менш важливо, що навіть полегшені версії зберігають більшу частину нових навичок, що відкриває шлях до практичного застосування компактних моделей.