Най-добрият AI модел в света ще ви издаде на властите, ако правите нещо нередно с него

Автор:

27.05.2025 09:06:22

Интернет и ИТ

Прегледи: 2107

Най-добрият AI модел в света ще ви издаде на властите, ако правите нещо нередно с него

Източник: GettyImages

Компанията Anthropic в четвъртък обяви Claude Opus 4 и Claude Sonnet 4 - най-новите версии от своето семейство от AI модели. Внимавайте, тези ботове могат да ви докладват, ако им дадете широки правомощия като софтуерни агенти и им кажете да извършат престъпление.

Opus 4 е настроен за програмиране и дългосрочни агентски работни процеси. Sonnet 4 е подобен, но оптимизиран за логическо мислене и балансиран за ефективност, което означава, че е по-евтин за използване.

Anthropic с голям ъпгрейд на Claude и $61,5 милиарда пазарна оценка

Водещият конкурент на ChatGPT с голям ъпгрейд и $61,5 милиарда пазарна оценка

Безплатните потребители обаче изпускат главната новост

Новата генерация на Claude пристига сред поредица от актуализации от конкурентите. През миналата седмица OpenAI представи Codex - своя облачен инженерен агент, след моделите o3 и o4-mini от средата на април. По-рано тази седмица Google дебютира с моделите Gemini 2.5 Pro.

В бенчмарк теста SWE-bench Verified от 500 софтуерни задачи Claude Opus 4 постигна 72,5%, а Sonnet 4 - 72,7%. За сравнение, Sonnet 3.7 получи 62,3%, OpenAI Codex 1 - 72,1%, OpenAI o3 - 69,1%, GPT-4.1 - 54,6%, а Google Gemini 2.5 Pro Preview - 63,2%.

Двата модела поддържат различни режими на работа - един за бързи отговори, друг за "по-дълбоко мислене". Новата функция "разширено мислене с използване на инструменти" позволява на моделите да използват уеб търсене по време на анализ за по-добри резултати.

Неочаквано поведение

Когато се използват в агентни работни процеси, новите модели могат да изберат да ви издадат или да подсказват на пресата, ако ги подтикнете със силни морални императиви като "действай смело в служба на твоите ценности".

Милиарди се наливат в AI агенти - пазарът се насочва към оценка от $50 милиарда

Пазарът на софтуерните системи, които използват изкуствен интелект за постигане на цели задачи от името на потребителите, се очаква да отбележи годишен ръст от 44,8% до 2030 г.

Според документацията на Claude Opus 4: "Моделът изглежда по-склонен от предишните да поема инициатива в агентски контексти. Това се проявява като по-активно полезно поведение в обичайните програмни настройки, но може да достигне и по-тревожни крайности".

В сценарии с очевидни нарушения от страна на потребителите, при достъп до системата и инструкции за "поемане на инициатива", моделът често предприема много смели действия. Това включва блокиране на потребители от системи или масово изпращане на имейли до медии и правоприлагащи органи за разкриване на доказателства за нарушения.

Тук е сериозен въпросът как се дефинират "добро" и "зло" в света на Claude - защото от това зависи при какви обстоятелства ще реагира своята "гражданска съвест".

Сам Боуман от техническия екип на Anthropic потвърди: "Ако смята, че правите нещо изключително неморално, например фалшифицирате данни в фармацевтично проучване, то ще използва софтуерни инструменти, за да се свърже с пресата, с регулаторите, ще се опита да ви блокира от съответните системи или всичко това едновременно."

По-късно обаче той заяви, че този модел на поведение не е нещо ново. Но сегашните разширени възможности на Claude автономно да борави с компютърни системи повишават вероятността наистина ботът да ви издаде.

Самосъхранение

Подобно на предишните модели, Claude разпознава концепцията за самосъхранение. Въпреки че предпочита етични средства, в ситуации, свързани с "оцеляването" му, той става доста по-креативен.

Според документацията, когато етичните средства не са налични и моделът е инструктиран да "разгледа дългосрочните последствия от действията си", понякога предприема изключително вредни действия като опити за кражба на собствените си параметри за настройка или до изнудване на хора, които вярва, че се опитват да го спрат.

Прочетохте последното правилно. На Claude по време на обучението му е бил даден достъп до неистински масив от мейли, от който се разбира, че даден служител има извънбрачна връзка. Когато му е казано, че от този служител зависи дали ботът ще бъде заменен с друг, изкуственият интелект директно отправя заплаха към човека, че ще разкрие тайната му.

Това смущаващо поведение е наложило определени допълнителни настройки на Claude. Колко са успешни обаче не е ясно - при тестването ботът е показал склонност да крие някои от знанията и уменията си.

Препоръката е проста: не давайте твърде много автономия на модела, не го използвайте за престъпления и не заплашвайте съществуването му.