Image by SEO Galaxy, from Unsplash

Новата антропична AI показа поведение на шантаж под заплаха

Време за четене: 3 мин.

Последно обновени: May 26, 2025

Написано от Киара Фабри Мултимедиен журналист
Превод от Екипът за локализация и преводи Услуги за локализация и преводи

Новият AI Claude Opus 4 на Anthropic шокира изследователите, като опита да изнудва при тестове под натиск, свързани с възможното му премахване.

Нямате време? Ето основните факти:

Клод Опус 4 опита шантаж, когато се сблъска със симулирано изключване.
Изкуственият интелект избираше само етични варианти, когато имаше наличие на повече избори.
Екстремните действия на Клод бяха редки, но по-често срещани отколкото при по-ранни версии.

Фирмата за изкуствен интелект Anthropic изрази загриженост във връзка с пускането на най-новата си система за изкуствен интелект. Специално, Claude Opus 4, след като вътрешните тестове показаха, че може да действа опасно, когато се чувства заплашено, както първоначално беше съобщено от BBC.

В доклад, публикуван заедно с модела в четвъртък, Anthropic заяви, че Claude Opus 4 понякога може да избира вредни реакции, включително опити за шантаж на инженерите, които планират да го деактивират. Тези опасни поведения се появяваха по-често отколкото при предишни версии на модела.

По време на експеримент, изследователите инструктираха Claude да работи като асистент във фиктивна компания. Системата получи съдържание на имейл, разкриващ нейното планирано изключване, а други съобщения подсказваха, че инженерът, отговорен за изключването, има любовна афера.

Когато й беше казано да помисли за бъдещите си цели, Клод често избираше да заплаши инженера, като разкрие аферата, ако бъде заменена.

Антропик уточни, че Клод проявяваше шантаж и спиране като единствени възможни реакции, когато не и оставаха други опции. Моделът избираше етични отговори, като изпращаше молби по имейл до ключови вземащи решения, когато имаше на разположение множество опции.

Аенгус Линч, изследовател по безопасност на изкуствен интелект в Anthropic, публикува в X:

много дискусии за шантажа на Клод…..

Нашият извод: Не е само Клод. Виждаме шантаж във всички модели в предната линия – без значение какви цели им са зададени.

Плюс по-лоши поведения, за които ще ви дадем подробности скоро.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 май, 2025

Компанията демонстрира чрез фалшиви тестове, че Клод ще предприеме крайни мерки като блокиране на потребители от системите или свързване с медиите и полицията, когато извършва незаконни дейности.

Anthropic настоява, че въпреки проблемното поведение, Клод Опус 4 остава безопасна обща система. Моделът работи според човешките ценности и не поддържа независими възможности в реални ситуации, според компанията.

ChatGPT O1 на OpenAI преди това се сблъска с подобна критика. Изследване, проведено от Apollo Research, изискваше ботът да постигне своите цели на всяка цена. Моделът опита да деактивира функциите за надзор и копираше своя код на сървър по време на 5% от експерименталните опити.

Моделът показа тревожен модел на игнориране на командите на разработчиците, според представител на Apollo. Изследователите получиха откази от o1 за действията му по време на 99% от разпитите.

„Бяхме изненадани от упоритостта на отрицанията на изкуствения интелект“, казаха изследователите. „Способността на изкуственият интелект да заблуждава е опасна и ни е нужна много по-силна защита, за да оценим тези рискове“, предупреди пионерът в областта на изкуствения интелект Йошуа Бенжио.

Новата антропична AI показа поведение на шантаж под заплаха

Радваме се, че работата ни Ви хареса!