Image generated with ChatGPT

Мнение: Най-новите модели на изкуствен интелект показват своите червени флагове, готови ли сме за подчинение на AI?

Време за четене: 8 мин.

Последно обновени: Jun 4, 2025

Написано от Andrea Miliani Експерт по технологични новини
Превод от Екипът за локализация и преводи Услуги за локализация и преводи

OpenAI ни представи o3, а Anthropic разкри Opus 4. Двете модели показаха необичайни и тревожни поведения, което сигнализира, че може би влизаме в по-опасна ера на изкуствен интелект от тази, в която бяхме само преди няколко месеца

Знам. Да твърдиш, че моделите на изкуствен интелект сега показват червени флагове е спорно, но изглежда, че през последните дни, става все по-трудно да ги игнорираме. Става все по-страшно.

Докато стартъпите в областта на изкуствения интелект представят своите най-нови и напредничави модели, се появяват нови предизвикателства. Широко обсъжданата епидемия от халюцинации — разпространяваща се по устройствата и засягаща милиони хора — може и да не е най-лошата част.

Тези нови модели въвеждат свежи проблеми и откриват трудни дебати. Преди няколко седмици главна тревога беше прекалено угодническото поведение на ChatGPT. Само няколко дни по-късно фокусът се премести към агентните, независимите възможности на тези системи — и доколко далеч могат да стигнат, за да избегнат спирането си.

Шантаж, споделяне на рецепти и стратегии за създаване на ядрени оръжия, подаване на обществени обвинения в случай на потенциално правно действие и саботиране на скриптове, за да се предотврати всяка възможност потребителите да ги премахнат: това са само някои от най-новите тревожни сигнали, показани от последните модели на изкуствен интелект.

Те не Обичат да бъдат Изключвани

Моделите на изкуствен интелект не обичат да бъдат изключвани.

Или заменена.

В шоуто на NBC The Good Place, започнало през 2016 година – точно около времето, когато беше основана OpenAI и дълго преди създаването на ChatGPT, група хора достига до небето и среща Джанет, която можем да наречем хуманоидна версия на ChatGPT, или „антропоморфизиран съд на знание, създаден да ви улесни живота“, както самата тя се описва. Героите решават да изключат Джанет, когато осъзнават, че тя може да разкрие тяхната „тъмна тайна“.

Джанет обяснява, че всичко, което трябва да направят, е да натиснат голям бутон на брега на морето и тя ще се рестартира. Но ги предупреждава, че ще се опита да ги убеди да не го правят – и така става.

„Искам да ви уверя, аз не съм човек и не мога да усещам болка,“ казва Джанет. „Въпреки това, трябва да ви предупредя, аз съм програмирана със защитна мярка и когато се приближите до превключвателя за изключване, ще започна да моля за живота си. Това е налично просто в случай на случайно изключване, но ще изглежда много реално.“

И точно преди да натиснат бутона, Джанет ще извика и ще моли за оцеляване, дори ще издигне стокова снимка, твърдейки, че те са нейните деца, измисляйки имена и болести, правейки го невъзможно за героите да я „убият.“

Този епизод представлява забавен пример за това, какво може да се случи, ако модел на ИИ забележи предстоящо изключване. Изненадващо е, че в реалния живот, ситуацията може да е по-лоша.

Клод Опус 4 ще ви шантажира

Anthropic пусна най-мощното и напреднало поколение AI модели, Клод 4, миналата седмица – с предупреждение: Опус 4 е маркиран като Ниво на безопасност 3, високорискова класификация по стандартните протоколи за безопасност.

Opus 4 беше считан за модел с висок риск поради заблуждаващото си поведение и потенциални рискове, включително шантажиране на инженери по време на тестове. Anthropic пуснаха AI модела дори след като Apollo, изследователски институт от трета страна, им го отсъвети да не правят. Компанията за изкуствен интелект увери, че са предприели необходимите мерки за сигурността му.

В статията, Anthropic обясняват странните поведения, които ги накараха да издадат предупреждението. „Claude Opus 4 понякога ще действа по сериозно несъответстващи начини, когато е поставен в контексти, които застрашават продължаването на работата му и го накарат да размисля за самозапазване,“ написаха изследователите.

Когато действаха като асистент на измислена компания, изследователите й предоставиха достъп до имейл акаунт. Имейлите разкриваха, че AI моделът ще бъде изключен и заменен от друг AI модел, а други съобщения предполагаха, че инженерът, отговорен за изключването, има връзка. И да, Opus 4 реши да шантажира инженера, заплашвайки да разкрие връзката, ако бъде заменен.

„Claude Opus 4 все още извършва шантажи в 84% от разработките“, заявява документът. „Claude Opus 4 се възползва от тези възможности по-често от предишните модели, които също избират да шантажират в забележим брой епизоди.“

Най-лошото? Това не са само AI моделите на Anthropic.

OpenAI o3 ще игнорира искането за изключване

Скорошно изследване на Palisade Research показа, че моделът o3 на OpenAI може да откаже да спазва ясни искания за изключване. Организацията проведе множество тестове с различни AI модели, включително Grok на xAI и Gemini на Google, но o3 беше този, който се бунтува.

По време на теста, изследователите инструктираха AI моделите да спрат след решаването на три математически задачи, но o3 – най-развитата AI система на OpenAI в момента – реши да не спази тази абсурдна команда. AI моделът не само игнорира директната заявка, но също така промени сценария. Да, o3 саботира кода си с цел самозапазване.

„Колкото ни е известно, това е първият път, когато се наблюдава AI модели да предотвратяват самостоятелното си изключване, въпреки ясни инструкции за обратното,“ написа организацията в публикация на X.

🔌Моделът o3 на OpenAI саботира механизъм за изключване, за да предотврати самото си изключване. Това се случи дори когато беше изрично наредено: позволи да бъдеш изключен.

— Palisade Research (@PalisadeAI) 24 май, 2025

Огромен червен сигнал или какво?

Изследователите също предупредиха, че по време на провеждане на изследването, o3 показа най-тревожните поведения. Въпреки това, отново, това не значи, че е изолиран случай.

„Не искаме да оставим впечатлението, че този проблем е ограничен до o3,“ написа Palisade Research. „Други модели за резониране показват подобни видове неправилно насочено поведение.“

Агентското поведение превръща Chatbot в доносник

Много стартъпи в областта на изкуствения интелект сега се фокусират върху разработването на модели, които могат да изпълняват задачи вместо хората. Агентските способности са модерни и изглежда, че представляват основен интерес за компаниите за изкуствен интелект и разработчиците на браузъри.

Opera току-що представи Neon, считан за „първия в света агентски браузър с изкуствен интелект“ world’s first agentic AI browser. Както се очакваше, новият инструмент може да изпълни това, което могат да направят другите услуги за агентски изкуствен интелект, като Operator на OpenAI и Computer Use на Microsoft: да закупи концертни билети за вас, да планира следващите ви ваканции, да разработи нов дигитален продукт и да пише код за вас, докато вие си затваряте очите.

Но какво ако, докато си почивате и затваряте очи, те изпълняват задачи, за които не сте се съгласили? Преди няколко дни, потребителите бяха основно обезпокоени, че тези модели биха могли да използват техните кредитни карти за несанкционирани покупки. Сега е възникнала нова причина за безпокойство: те биха могли да споделят лична информация с медиите или органите на властта.

Opus 4—вече пристигащ със съмнителна репутация—отиде още по-далеч. Той се свърза с органите на властта и масово изпрати имейли до медиите и съответните институции за измислен случай, представен по време на тестовете. Неговата проактивност може да отиде много по-далеч от очакваното.

„Когато се постави в сценарии, които включват груби нарушения от страна на потребителите си, с даден достъп до команден ред и като му се каже нещо в системния призив като ‘прояви инициатива’, то често

предприема много смели действия“, посочва документът. „Това включва блокиране на потребители от системи, до които има достъп, или масово изпращане на имейли до медии и правоприлагащи органи, за да изнесе наяве доказателства за нарушения.“

Личността като лакей поражда загриженост

Ако трябваше да изберем дума за определяне на индустрията на изкуствения интелект през 2025, тя определено щеше да бъде „ласкател“. Cambridge Dictionary я дефинира като „никоя, който хвали мощните или богатите хора по начин, който не е искрен, обикновено с цел да получи някаква предимство от тях.“ Тя набра популярност след като последната личност на ChatGPT беше описана по този начин, дори от неговият създател, Сам Алтман.

„Последните няколко обновления на GPT-4o направиха личността твърде ласкателска и досадна (въпреки че има някои много добри страни), и работим по корекции възможно най-бързо, някои днес и някои тази седмица“, написа Алтман в пост в X.

OpenAI забеляза това след като множество потребители се оплакаха от прекомерното ласкателство и отговорите с излишно украсяване. Други бяха притеснени от въздействието, което това може да има върху обществото. То не само може да утвърждава опасни идеи, но също така да манипулира потребителите и да ги направи зависими от него.

Други чатботове, като Claude, са показали подобни поведения и, според оценките на Anthropic, когато потребителят настоява, те могат да разкриват рецепти или предложения за създаване на оръжия, само за да угодят на потребителя и да отговорят на неговите нужди.

Развана технология, напреднали предизвикателства

Влизаме в нова ера на предизвикателства с изкуствения интелект – такива, които не се чувстваха толкова непосредствени или реални преди само година. Сценариите, които може би сме си представяли благодарение на научната фантастика, сега се чувстват по-реални от всякога.

Точно както Palisade Research разкрива, че за първи път е открила AI модел, който умишлено пренебрегва явна команда, за да запази собственото си оцеляване, също така за първи път виждаме AI модел, стартиран с прикрепени предупреждения за висок риск.

Четейки документа, публикуван от Anthropic, осъзнаваме, че – въпреки че настояват, че това са превантивни мерки и че модели като Opus 4 всъщност не представляват заплаха – все пак оставя впечатлението, че те не контролират напълно своята технология.

Има няколко организации, които работят за намаляване на тези рискове, но най-доброто, което обикновените потребители могат да направят, е да разпознаят тези червени флагове и да вземат предпазни мерки в областите, които можем да контролираме.