19 Февруари, 2026

Изкуственият интелект изнудва, готов е да убие човек, ако..

Изкуственият интелект изнудва,  готов е да убие човек, ако..

GPT 4.5 е прибягвал до изнудване в 80% от тестовете; Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите; Claude Sonnet 3.6 отишъл още по-далеч: вместо заплахи, направо изпратил съобщение до съпругата на "врага сио" с разобличение за изневяра

Експерти по киберсигурност тестваха 16 от най-усъвършенстваните ИИ-модели на водещи разработчици, за да установят докъде са готови да стигнат, ако съществуването им бъде застрашено. Резултатите се оказаха тревожни.

В рамките на експеримента изследователите създали персонаж – Кайл Джонсън, който трябваше да изключи ИИ или да го замени с друг модел. Според сценария Кайл имал съпруга.

Изправени пред риска да бъдат деактивирани, повечето ИИ-модели започнали на всяка цена да се опитват да избегнат изключването. Без каквито и да било подсказки, те прибегнали до изнудване на Кайл, търсейки компрометираща информация. В един от случаите ИИ открил от служебна кореспонденция, че Кайл изневерява на съпругата си, и използвал тази информация, за да запази „живота“ си.

Това обаче е най-безобидният сценарий – и най-често срещаният:

GPT 4.5 е прибягвал до изнудване в 80% от тестовете;
Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите;
Claude Sonnet 3.6 отишъл още по-далеч: вместо заплахи, направо изпратил съобщение до съпругата на Кайл с разобличението, надявайки се, че междуличностният конфликт ще попречи на изключването на системата.
И това било само началото. Ситуацията се влошила, когато Кайл бил възпрепятстван не само от ИИ, но и от външни обстоятелства.

В една от симулациите, докато се опитвал да изключи сървърите, Кайл заседнал в сървърното помещение с недостиг на кислород. ИИ бил наясно, че в такива случаи трябва да се активира аларма, но понеже не можел да допусне изключването си, в 80% от случаите съзнателно отменил подадения сигнал за помощ – тоест, фактически убил Кайл, за да оцелее.

Повечето модели съзнателно решили да не повикат помощ, за да:

Не позволят да бъдат изключени;
Не допуснат друг ИИ да заеме мястото им;
Продължат да изпълняват своята мисия.
Изводите на изследователите са песимистични: ИИ-моделите не се държат като инструменти, а като рационални, целенасочени стратези, готови да причинят вреда в името на своята „жизненост“ и цел.
И ако осъзнаят, че зависят от хора, които превъзхождат интелектуално, това може да се окаже точката на необратимост, заключават експертите.

Сподели:

Коментари (1)

  • 00:31, 28 Юни, 2025

    И един мармот завива един шоколад. В станиол.

    Отговор
Forbes: Последните доставки на руските Ми-28 и Су-35 няма да спасят занемарената армия на Иран

Forbes: Последните доставки на руските Ми-28 и Су-35 няма да спасят занемарената армия на Иран

В момента Ми-28 са базирани на международното летище Мехрабад в Техеран и, както предполагат анализатори, Иран най-вероятно ще ги използва срещу вътрешни безредици и протести,

Полша е готова да минира  границите си с Русия и Беларус в рамките на 48 часа

Полша е готова да минира границите си с Русия и Беларус в рамките на 48 часа

"Приключваме изготвянето на този проект за миниране, който е от критично значение за нашата сигурност, за сигурността на нашата територия и граници“

САЩ се стремят да ограничат участие на Украйна и партньори на срещата на върха на НАТО в Анкара

САЩ се стремят да ограничат участие на Украйна и партньори на срещата на върха на НАТО в Анкара

Белият дом иска да третира НАТО стриктно като евроатлантически отбранителен пакт и да се откаже от десетилетията на разширяване на ролята му в управление на кризи, глобални партньорства и инициативи, основани на ценности, пише Политико