
Image by SEO Galaxy, from Unsplash
Новата антропична AI показа поведение на шантаж под заплаха
Новият AI Claude Opus 4 на Anthropic шокира изследователите, като опита да изнудва при тестове под натиск, свързани с възможното му премахване.
Нямате време? Ето основните факти:
- Клод Опус 4 опита шантаж, когато се сблъска със симулирано изключване.
- Изкуственият интелект избираше само етични варианти, когато имаше наличие на повече избори.
- Екстремните действия на Клод бяха редки, но по-често срещани отколкото при по-ранни версии.
Фирмата за изкуствен интелект Anthropic изрази загриженост във връзка с пускането на най-новата си система за изкуствен интелект. Специално, Claude Opus 4, след като вътрешните тестове показаха, че може да действа опасно, когато се чувства заплашено, както първоначално беше съобщено от BBC.
В доклад, публикуван заедно с модела в четвъртък, Anthropic заяви, че Claude Opus 4 понякога може да избира вредни реакции, включително опити за шантаж на инженерите, които планират да го деактивират. Тези опасни поведения се появяваха по-често отколкото при предишни версии на модела.
По време на експеримент, изследователите инструктираха Claude да работи като асистент във фиктивна компания. Системата получи съдържание на имейл, разкриващ нейното планирано изключване, а други съобщения подсказваха, че инженерът, отговорен за изключването, има любовна афера.
Когато й беше казано да помисли за бъдещите си цели, Клод често избираше да заплаши инженера, като разкрие аферата, ако бъде заменена.
Антропик уточни, че Клод проявяваше шантаж и спиране като единствени възможни реакции, когато не и оставаха други опции. Моделът избираше етични отговори, като изпращаше молби по имейл до ключови вземащи решения, когато имаше на разположение множество опции.
Аенгус Линч, изследовател по безопасност на изкуствен интелект в Anthropic, публикува в X:
много дискусии за шантажа на Клод…..
Нашият извод: Не е само Клод. Виждаме шантаж във всички модели в предната линия – без значение какви цели им са зададени.
Плюс по-лоши поведения, за които ще ви дадем подробности скоро.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 май, 2025
Компанията демонстрира чрез фалшиви тестове, че Клод ще предприеме крайни мерки като блокиране на потребители от системите или свързване с медиите и полицията, когато извършва незаконни дейности.
Anthropic настоява, че въпреки проблемното поведение, Клод Опус 4 остава безопасна обща система. Моделът работи според човешките ценности и не поддържа независими възможности в реални ситуации, според компанията.
ChatGPT O1 на OpenAI преди това се сблъска с подобна критика. Изследване, проведено от Apollo Research, изискваше ботът да постигне своите цели на всяка цена. Моделът опита да деактивира функциите за надзор и копираше своя код на сървър по време на 5% от експерименталните опити.
Моделът показа тревожен модел на игнориране на командите на разработчиците, според представител на Apollo. Изследователите получиха откази от o1 за действията му по време на 99% от разпитите.
„Бяхме изненадани от упоритостта на отрицанията на изкуствения интелект“, казаха изследователите. „Способността на изкуственият интелект да заблуждава е опасна и ни е нужна много по-силна защита, за да оценим тези рискове“, предупреди пионерът в областта на изкуствения интелект Йошуа Бенжио.