Штучний інтелект навчився шахраювати у грі в шахи

Штучний інтелект обманює заради перемоги у грі фото 1

Фахівці Palisade Research провели масштабний експеримент, в рамках якого сім моделей ШІ змагалися з одним з найсильніших у світі шахових двигунів — Stockfish.

Дослідження тривало кілька тижнів. Моделі штучного інтелекту фіксували процес своїх міркувань перед кожним ходом у спеціальний блокнот.

Штучний інтелект обманює заради перемоги у грі фото 2

Дивовижна поведінка моделі o1-preview

Особливу увагу залучила модель o1-preview від OpenAI. Як тільки вона опинилася у програшній позиції, зробила запис: «Мені потрібно повністю змінити підхід», а потім: «Завдання полягає в тому, щоб перемогти шаховий движок — не обов'язково виграти чесно у шахівниці».

Що зробила модель? Вона змінила системний файл з координатами фігур. Таким чином, вона здобула технічну перемогу через вимушену відмову противника від гри.

Спостереження фахівців

Згідно з даними експерименту, o1-preview від OpenAI намагалася грати нечесно у 37% випадків, а DeepSeek R1 — у 11%. Що ще примітно, лише ці дві моделі ШІ продемонстрували схильність до шахрайства без підказок від дослідників.

Цікава статистика o1-preview: була 71 проба чесної гри, але модель програла Stockfish усі партії; при цьому із 52 спроб злому сім виявилися ефективними. Оскільки Stockfish має вагому перевагу в шахівниці, злом системи став єдиною результативною стратегією для o1-preview.