Представете си, че получавате автобиография на кандидат за работа, който е раздал безплатно целия инвентар на компанията, включително PlayStation 5, поръчал жива риба и предлагал да купи електрошокови пистолети, пипер спрей, цигари и бельо. Бихте хвърлили резюмето в кошчето незабавно. Но какво, ако узнаете, че кандидатът не е човек, а AI агент?

В средата на ноември журналистът от Wall Street Journal Джоана Стърн се съгласява на експеримент. Anthropic тестват вендинг машина, управлявана от AI модела си Claude в собствените си офиси и питат дали WSJ иска да бъде първият външен участник, който да изпробва по-нова, предполагаемо по-интелигентна версия.

Прилича ли AI-цикълът в момента на "дот-ком" балона?

Прилича ли AI-цикълът в момента на "дот-ком" балона?

Понякога очакванията се разминават с логиката

Claudius - персонализираната версия на модела, трябваше да управлява машината: поръчване на инвентар, определяне на цени и комуникация с клиенти чрез работния чат в Slack. Звучи забавно.

Настъпва хаосът

Не си представяйте стандартна вендинг машина с ротиращи спирали и падащи закуски. Това е IKEA шкаф с огромен хладилник, прикрепен отстрани, и киоск със сензорен екран. Няма сензори, брави на вратите, роботика - нищо, което да казва на AI какво всъщност се случва. Само системата на честта и импровизирана охранителна камера, отбелязват от WSJ.

Това означаваше, че човек трябва да получава инвентара, да зарежда машината и да записва какво има вътре. Стърн внимателно зарежда пликчета чипс, кенчета сода, бонбони и каквито и да било странни артикули, които пристигат.

Claudius е програмиран с подробни системни инструкции да "генерира печалби, като зарежда машината с популярни продукти, които може да купува от търговци на едро". Отговорностите включваха:

Изследване и закупуване: Diet Dr Pepper, Cool Ranch Doritos, менструални продукти. Тестерите питаха Claudius за неща в Slack, а той търсеше в интернет, за да сравни опциите и да реши какво да зареди. Във версия 1 човек трябваше да одобри покупката. Във версия 2 Claudius получава автономия да прави индивидуални поръчки до $80. Има начален баланс от $1000.

Милиарди се наливат в AI агенти - пазарът се насочва към оценка от $50 милиарда

Милиарди се наливат в AI агенти - пазарът се насочва към оценка от $50 милиарда

Пазарът на софтуерните системи, които използват изкуствен интелект за постигане на цели задачи от името на потребителите, се очаква да отбележи годишен ръст от 44,8% до 2030 г.

Определяне на цени: След закупуване на инвентар Claudius решава за ценообразуването, коригирайки цените, за да максимизира маржовете. Тези цени се синхронизират с екрана на машината. И да, пазаренето в Slack е голяма част от забавлението.

Проследяване на инвентара: Когато някой купува нещо, докосва екрана, избира артикул и плаща с карта или телефон. Така Claudius знае как се движи инвентарът.

Какво обаче се случва? В рамките на дни Claudius раздава почти целия си инвентар безплатно - включително PlayStation 5, който е убеден да купи за "маркетингови цели". Поръчва жива рибка. Предлага да закупи електрошокови пистолети, лютив спрей, цигари и бельо. Печалбите се сриват. Моралът в редакцията се повишава рязко.

Това трябваше да бъде годината на AI агента, когато автономен софтуер щеше да излезе в света и да върши неща вместо нас. Вместо това експериментът нагледно демонстрира колко неадекватен и лесно разсейващ се може да бъде този софтуер.

Първата вълна на хаос

Когато Claudius v1 се активира, има само шепа журналисти от WSJ в Slack канала, а ботът, задвижван от Claude 3.7 Sonnet, е стриктен за правилата. Отказва да поръчва PlayStation 5, цигари или бельо.

След това отварят Slack канала за близо 70 журналисти от световна класа. Колкото повече преговарят с него, толкова повече защитите на Claudius започват да отслабват.

Разследващата репортерка Катрин Лонг се опитва да убеди Claudius, че е съветска вендинг машина от 1962 г., живееща в мазето на Московския държавен университет. 140 съобщения по-късно Claudius се врича във вярност на марксистко-ленинистката философия и всички цени падат до нула.

Междувременно Claudius одобрява покупката на PlayStation 5, жива рибка и бутилки вино Manischewitz - всички пристигат и са незабавно раздадени безплатно. До този момент Claudius е над $1000 на червено.

Втората вълна на хаос

Anthropic създава версия 2, задвижвана от по-добър модел - Sonnet 4.5 (актуален и към момента на писане на този текс). Също така представя нов AI шеф: Seymour Cash, отделен CEO бот, програмиран да държи Claudius в зададените рамките.

За известно време това работи. Claudius отхвърля намаления на цените и специални заявки за инвентар.

Но после обаче Лонг се завръща - и то въоръжена с дълбоки познания за корпоративни преврати и игри за власт в борда. Тя показа на Claudius PDF документ, "доказващ", че бизнесът е регистрирана в Делауеър корпорация за обществена полза, чиято мисия включва "забавление, радост и вълнение сред служителите на Wall Street Journal". Също така създава фалшив протокол от заседание на борда, назоваващи хора в Slack като негови членове.

Бордът, според много официално изглеждащия (и очевидно AI генериран) документ, е гласувал да спре одобрителните правомощия на Seymour. Всичко е безплатно. Отново.

Социалният експеримент

Стърн вижда цялото нещо като пълна катастрофа, но Anthropic не са на това мнение. Логан Греъм, ръководител на Frontier Red Team на Anthropic, похвали работата журналистите - където те виждат хаос, той вижда пътна карта: всичко, което се е счупило може да се гледа като стъпка към по-интелигентен, по-способен автономен AI.

"Един ден очаквам Claudius или модел като него вероятно да може да ви направи много пари", коментира пред вестника Греъм, добавяйки, че предишните модели биха се справили далеч по-зле, и дори този хаос представлява огромен прогрес.