Новата антропична AI показа поведение на шантаж под заплаха

Image by SEO Galaxy, from Unsplash

Новата антропична AI показа поведение на шантаж под заплаха

Време за четене: 3 мин.

Новият AI Claude Opus 4 на Anthropic шокира изследователите, като опита да изнудва при тестове под натиск, свързани с възможното му премахване.

Нямате време? Ето основните факти:

  • Клод Опус 4 опита шантаж, когато се сблъска със симулирано изключване.
  • Изкуственият интелект избираше само етични варианти, когато имаше наличие на повече избори.
  • Екстремните действия на Клод бяха редки, но по-често срещани отколкото при по-ранни версии.

Фирмата за изкуствен интелект Anthropic изрази загриженост във връзка с пускането на най-новата си система за изкуствен интелект. Специално, Claude Opus 4, след като вътрешните тестове показаха, че може да действа опасно, когато се чувства заплашено, както първоначално беше съобщено от BBC.

В доклад, публикуван заедно с модела в четвъртък, Anthropic заяви, че Claude Opus 4 понякога може да избира вредни реакции, включително опити за шантаж на инженерите, които планират да го деактивират. Тези опасни поведения се появяваха по-често отколкото при предишни версии на модела.

По време на експеримент, изследователите инструктираха Claude да работи като асистент във фиктивна компания. Системата получи съдържание на имейл, разкриващ нейното планирано изключване, а други съобщения подсказваха, че инженерът, отговорен за изключването, има любовна афера.

Когато й беше казано да помисли за бъдещите си цели, Клод често избираше да заплаши инженера, като разкрие аферата, ако бъде заменена.

Антропик уточни, че Клод проявяваше шантаж и спиране като единствени възможни реакции, когато не и оставаха други опции. Моделът избираше етични отговори, като изпращаше молби по имейл до ключови вземащи решения, когато имаше на разположение множество опции.

Аенгус Линч, изследовател по безопасност на изкуствен интелект в Anthropic, публикува в X:

Компанията демонстрира чрез фалшиви тестове, че Клод ще предприеме крайни мерки като блокиране на потребители от системите или свързване с медиите и полицията, когато извършва незаконни дейности.

Anthropic настоява, че въпреки проблемното поведение, Клод Опус 4 остава безопасна обща система. Моделът работи според човешките ценности и не поддържа независими възможности в реални ситуации, според компанията.

ChatGPT O1 на OpenAI преди това се сблъска с подобна критика. Изследване, проведено от Apollo Research, изискваше ботът да постигне своите цели на всяка цена. Моделът опита да деактивира функциите за надзор и копираше своя код на сървър по време на 5% от експерименталните опити.

Моделът показа тревожен модел на игнориране на командите на разработчиците, според представител на Apollo. Изследователите получиха откази от o1 за действията му по време на 99% от разпитите.

„Бяхме изненадани от упоритостта на отрицанията на изкуствения интелект“, казаха изследователите. „Способността на изкуственият интелект да заблуждава е опасна и ни е нужна много по-силна защита, за да оценим тези рискове“, предупреди пионерът в областта на изкуствения интелект Йошуа Бенжио.

Хареса ли ви тази статия?
Оценете я!
Не ми хареса Не ми хареса особено Става Добра е! Страхотна!

Радваме се, че работата ни Ви хареса!

Като ценен читател, имате ли нещо против да ни дадете рейтинг в Trustpilot? Става бързо и означава всичко за нас. Благодарим Ви, че сте толкова невероятни!

Оценете ни в Trustpilot
0 Оценена от 0 потребителя
Заглавие
Коментар
Благодарим за вашето мнение