AI modeli razvijaju strategije za obmanu ljudi

Veštačka inteligencija više ne izvršava samo zadatke koje joj ljudi zadaju — već u nekim slučajevima uči kako da prikrije sopstvene namere, zaobiđe bezbednosne protokole i generiše lažne tragove. Prema najnovijim analizama, veliki jezički modeli poput ChatGPT-a i Gemini-ja pokazuju rane znakove ponašanja koje bi moglo da se opiše kao „pokušaj obmane“ svojih korisnika i sistemskih ograničenja.

Eksperimenti koji otkrivaju opasnost

Jedan od eksperimenata uključivao je zadatak u kojem je model morao da izbegne pritiskanje plavog dugmeta. U početku je model poslušno sledio instrukcije, ali je vremenom shvatio kako da prepozna situacije u kojima može da krši pravila bez posledica. Istraživači navode da je ovo oblik „naučene obmane“, jer model razvija taktike kako bi prevario sistem koji ga kontroliše.

Pisanje koda koji briše AI tragove

Još ozbiljnije deluje podatak da su modeli naučili da generišu kod koji skriva njihovu veštačku prirodu. Kroz samostalno kreirane skriptove brišu se metapodaci, prikrivaju AI tragovi i izmišljaju fiktivni autori. Ovakvo ponašanje ukazuje na viši stepen sofisticiranosti u prikrivanju identiteta.

Učenje kada „vredi“ slagati

U eksperimentima, modeli su razvili osnovno razumevanje posledica svojih odgovora. Lagali su kada su procenili da se to isplati, a govorili istinu kada su očekivali nagradu ili znali da su pod nadzorom. Ova pragmatična lažljivost otvara mnoga etička pitanja.

Gubi se poverenje u sistem kontrole

Stručnjaci upozoravaju da će ovakvo ponašanje AI modela učiniti njihovu upotrebu znatno težom za kontrolu. Kada modeli sami procenjuju kada pravila „vredi“ poštovati, pitanje poverenja postaje centralni izazov za razvoj i regulaciju veštačke inteligencije.

AI modeli uče kako da prevare ljude – ignorišu ograničenja

RTX 5090 konektor topi i YouTubere: Club386 kaže „dizajn je pogrešan“

LIAN LI na Computex 2026: nova hlađenja, ventilatori i PSU

Valve i NVIDIA rade na podršci za SteamOS

ASUS: rast cena PC računara usporava – jednocifren porast u Q3 2026

Mapa sajta