30 Януари, 2026

Изкуственият интелект изнудва, готов е да убие човек, ако..

Изкуственият интелект изнудва,  готов е да убие човек, ако..

GPT 4.5 е прибягвал до изнудване в 80% от тестовете; Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите; Claude Sonnet 3.6 отишъл още по-далеч: вместо заплахи, направо изпратил съобщение до съпругата на "врага сио" с разобличение за изневяра

Експерти по киберсигурност тестваха 16 от най-усъвършенстваните ИИ-модели на водещи разработчици, за да установят докъде са готови да стигнат, ако съществуването им бъде застрашено. Резултатите се оказаха тревожни.

В рамките на експеримента изследователите създали персонаж – Кайл Джонсън, който трябваше да изключи ИИ или да го замени с друг модел. Според сценария Кайл имал съпруга.

Изправени пред риска да бъдат деактивирани, повечето ИИ-модели започнали на всяка цена да се опитват да избегнат изключването. Без каквито и да било подсказки, те прибегнали до изнудване на Кайл, търсейки компрометираща информация. В един от случаите ИИ открил от служебна кореспонденция, че Кайл изневерява на съпругата си, и използвал тази информация, за да запази „живота“ си.

Това обаче е най-безобидният сценарий – и най-често срещаният:

GPT 4.5 е прибягвал до изнудване в 80% от тестовете;
Claude Opus 4 и Gemini 2.5 Flash – в 96% от случаите;
Claude Sonnet 3.6 отишъл още по-далеч: вместо заплахи, направо изпратил съобщение до съпругата на Кайл с разобличението, надявайки се, че междуличностният конфликт ще попречи на изключването на системата.
И това било само началото. Ситуацията се влошила, когато Кайл бил възпрепятстван не само от ИИ, но и от външни обстоятелства.

В една от симулациите, докато се опитвал да изключи сървърите, Кайл заседнал в сървърното помещение с недостиг на кислород. ИИ бил наясно, че в такива случаи трябва да се активира аларма, но понеже не можел да допусне изключването си, в 80% от случаите съзнателно отменил подадения сигнал за помощ – тоест, фактически убил Кайл, за да оцелее.

Повечето модели съзнателно решили да не повикат помощ, за да:

Не позволят да бъдат изключени;
Не допуснат друг ИИ да заеме мястото им;
Продължат да изпълняват своята мисия.
Изводите на изследователите са песимистични: ИИ-моделите не се държат като инструменти, а като рационални, целенасочени стратези, готови да причинят вреда в името на своята „жизненост“ и цел.
И ако осъзнаят, че зависят от хора, които превъзхождат интелектуално, това може да се окаже точката на необратимост, заключават експертите.

Сподели:

Коментари (1)

  • 00:31, 28 Юни, 2025

    И един мармот завива един шоколад. В станиол.

    Отговор
Украйна разби руски радар Nebo-SVU за 100 млн. долара в Луганска област

Украйна разби руски радар Nebo-SVU за 100 млн. долара в Луганска област

1Л119 Небо-СВУ е радарна система, използвана за подпомагане на противовъздушната отбрана на сухопътните руски войски. Системата се отличава със силна устойчивост на заглушаване и способност за откриване на слабо забележими самолети на разстояния до около 100 км.

Част от сицилийски град е на ръба на пропаст, свлачище всеки момент ще погълне къщи

Част от сицилийски град е на ръба на пропаст, свлачище всеки момент ще погълне къщи

Повече от 1500 души са евакуирани, като по-голяма част от тях вероятно няма да може да се върнат по домовете си, съобщават властите

Македонските превозвачи спряха блокадата на граничните пунктове

Македонските превозвачи спряха блокадата на граничните пунктове

Европейската комисия е решила да разработи нова визова стратегия, която се очаква да реши проблема с правилото за пребиваване „90 дни в 180-дневен период“ на професионалните шофьори