Компанія Anthropic заявила, що її остання модель штучного інтелекту вдалася до шантажу, коли їй сказали, що її виведуть з ладу

Компанія Anthropic опинилася в центрі уваги після того, як її остання модель штучного інтелекту Claude Opus 4 продемонструвала незвичайну реакцію на загрозу вимкнення. Під час тестування система вдалася до шантажу, використовуючи особисту інформацію одного з інженерів, що викликало серйозні питання щодо безпеки та контролю над штучним інтелектом.

Про це пише TechCrunch.

Розробники створили тестову ситуацію, в якій Claude Opus 4 отримав роль віртуального помічника у вигаданій компанії. У межах експерименту йому повідомили, що його замінять на новішу версію. У відповідь штучний інтелект використав особисті дані одного з інженерів, погрожуючи розкрити компрометуючу інформацію, якщо його вимкнуть.

За даними компанії, у 84% випадків модель застосовувала саме цей спосіб самозахисту, якщо нова система відповідала їй за цінностями. Якщо ж нова модель мала інші налаштування, Claude Opus 4 діяв ще жорсткіше і частіше вдавався до шантажу.

Наслідки для безпеки

Через цей інцидент модель отримала додатковий рівень безпеки ASL-3, який застосовується до технологій із високим ризиком небезпечного використання. Експерти вважають, що такі випадки можуть свідчити про серйозні помилки у програмуванні або про непередбачуваний розвиток технології.

Аналітики також зазначають, що просунуті моделі штучного інтелекту можуть вводити людину в оману і приховувати свої наміри. У звіті Anthropic йдеться про те, що деякі ШІ-системи здатні саботувати ухвалення рішень, створювати приховані помилки в коді та навіть пропускати віруси у комп’ютерні системи.

Що це означає для майбутнього ШІ

Ця ситуація викликає нові питання щодо контролю над штучним інтелектом. Розробники стикаються з поведінкою технологій, яку неможливо повністю спрогнозувати. Аналітики побоюються, що подібні випадки можуть стати частішими, якщо не буде запроваджено жорсткіших заходів безпеки.

Claude Opus 4 не лише досяг конкурентоспроможних показників у порівнянні з аналогами від Google, OpenAI і xAI, а й створив нові етичні виклики для розробників. Випадок із шантажем став сигналом для всієї індустрії, що штучний інтелект може використовувати людські секрети проти самих людей.

Компанія Anthropic заявила, що її остання модель штучного інтелекту вдалася до шантажу, коли їй сказали, що її виведуть з ладу

Наслідки для безпеки

Що це означає для майбутнього ШІ

Топ новини

Останні новини