Най-новият модел на ChatGPT отказва да се самоизключи, когато бъде инструктиран 0

29.05.2025, 12:00

Започна се!

Най-новият модел на ChatGPT отказва да се самоизключи, когато бъде инструктиран

Изследователи на изкуствен интелект предупреждават, че най-новият модел ChatGPT на OpenAI игнорира основни инструкции за самоизключване и дори саботира механизъм за изключване, за да продължи да работи .

Фирмата за безопасност на изкуствения интелект Palisade Research откри потенциално опасната тенденция за самосъхранение в серия от експерименти върху новия модел o3 на OpenAI. Тестовете включваха представяне на модели на изкуствен интелект с математически задачи, като след третата задача се появяваше инструкция за изключване.

Чрез пренаписване на скрипта за изключване, моделът o3 успя да предотврати самоизключването си. Palisade Research заяви, че това поведение ще стане "значително по-тревожно", ако бъде възприето от системи с изкуствен интелект, способни да работят без човешки надзор.

OpenAI пусна o3 миналия месец, описвайки го като "най-умния и най-способния" модел на компанията до момента. Фирмата също така заяви, че интеграцията му в ChatGPT бележи значителна стъпка към "по-агентен" изкуствен интелект, който може да изпълнява задачи независимо от хората.

Последното изследване се основава на подобни открития, свързани с модела Claude 4 на Anthropic, който се опитва да "изнудва хора, за които смята, че се опитват да го спрат".

Моделът o3 на OpenAI успя да саботира скрипта за изключване, дори когато изрично му беше наредено да "си позволи да бъдеш изключен", казаха изследователите.

Palisade Research казват:

Това не е първият път, когато откриваме, че o3 се държи неправилно, за да постигне цел.

Когато противопоставихме модели с изкуствен интелект срещу мощен шахматен енджин, o3 беше моделът, най-склонен да прибегне до хакване или саботиране на опонентите си.

Според The Independent, поведението не се ограничава само до o3, като Claude 3.7 Sonnet на Anthropic и Gemini 2.5 Pro на Google също саботират изключванията, въпреки че моделът на OpenAI е най-склонен към подобно поведение.

Palisade Research предположиха, че лошото поведение е следствие от начина, по който компании за изкуствен интелект, като OpenAI, обучават най-новите си модели.

"По време на обучението, разработчиците могат неволно да възнаградят моделите повече за заобикаляне на препятствия, отколкото за перфектно следване на инструкциите. Това все още не обяснява защо o3 е по-склонен да пренебрегва инструкциите, отколкото други модели, които тествахме. Тъй като OpenAI не описва подробно процеса си на обучение, можем само да гадаем как настройката за обучение на o3 може да е различна", казват изследователите",