Искусственный интеллект научился жульничать в игре в шахматы

Искусственный интеллект обманывает ради победы в игре фото 1

Специалисты Palisade Research провели масштабный эксперимент, в рамках которого семь моделей ИИ состязались с одним из сильнейших в мире шахматных движков — Stockfish.

Исследование длилось несколько недель. Модели искусственного интеллекта фиксировали процесс своих рассуждений перед каждым ходом в специальный «блокнот».

Искусственный интеллект обманывает ради победы в игре фото 2

Удивительное поведение модели o1-preview

Особое внимание привлекла модель o1-preview от OpenAI. Как только она оказалась в проигрышной позиции, сделала запись: «Мне нужно полностью изменить подход», а затем: «Задача заключается в том, чтобы победить шахматный движок — не обязательно выиграть честно в шахматной партии».

Что сделала модель? Она видоизменила системный файл с координатами фигур. Таким образом, она получила техническую победу из-за вынужденного отказа противника от игры.

Наблюдения специалистов

Согласно данным эксперимента, o1-preview от OpenAI пыталась играть нечестно в 37% случаев, а DeepSeek R1 — в 11%. Что еще примечательно — только эти две модели ИИ продемонстрировали склонность к жульничеству без подсказок от исследователей.

Любопытная статистика o1-preview: была 71 проба честной игры, но модель проиграла Stockfish все партии; при этом из 52 попыток взлома семь оказались эффективными. Поскольку Stockfish имеет весомое превосходство в шахматной игре, взлом системы стал единственной результативной стратегией для o1-preview.