Anthropic пусна публично Claude Fable 5 - версия на най-мощния си модел, но с вграден филтър, който блокира отговори по "чувствителни" теми.
Той е базиран на "същия основен модел" като Claude Mythos - изкуствен интелект, представен през април, но задържан от широко разпространение заради опасения, че може да бъде използван за кибератаки и разработка на биологично оръжие.
Разликата е в слой от класификатори - отделни алгоритми, наблюдаващи всяка заявка. Когато потребител попита нещо чувствително, например как се произвежда рицин, Fable 5 не отказва директно - прехвърля въпроса към по-стар и по-ограничен модел - Claude Opus 4.8, и уведомява потребителя за размяната, пише Ars Technica.
Забранените теми са четири: киберсигурност в офанзивен контекст, биология и химия с потенциал за оръжия, и т.нар. "дестилация" - опити да се извлекат способностите на модела с цел трениране на конкурентни системи.
Guardian допълва, че от Anthropic са засекли мащабни опити за дестилация от "страни с авторитарно управление".
Защо е нужна тази защита?
Claude Mythos си създаде аурата на нещо различно от всичко, виждано досега в AI. При вътрешни тестове моделът е идентифицирал и експлоатирал нови уязвимости в "почти всяка операционна система и всеки браузър", включително грешка в OpenBSD на 27 години.
Mythos не е бил изрично трениран за хакване - способностите са се появили като страничен ефект от общото подобряване на логиката и способността за писане на код, посочва The Hacker News.
Именно затова Anthropic не пуска Mythos свободно. Вместо това, в рамките на инициативата Project Glasswing, около 200 организации в над 15 държави вече имат достъп до пълната версия - от тази седмица Mythos 5, без киберограниченията.
Cloudflare е открила 2000 бъга само за седмици, 400 от тях с висока или критична степен на сериозност. Mozilla е намерила 271 уязвимости във Firefox 150 - десет пъти повече, отколкото в предишна версия с по-стар модел.
Проблемът вече не е намирането на дупките, а в "кърпенето" им - при средно две седмици за поправка на критичен проблем, пространството за злоупотреба остава отворено. Откриването на уязвимост става бързо, лесно и (относително) евтино, докато коригирането ѝ струва човешко време и много повече пари.
Колко струва?
Fable 5 е достъпен за API и корпоративни клиенти на Anthropic на цена от 10 долара за милион входящи токена и 50 долара за милион изходящи - двойно повече от Opus 4.8, който сам по себе си е сред най-скъпите.
За потребителите на платени планове достъпът е безплатен до 22 юни, след което преминава към система с платени кредити. Anthropic заявява намерение да върне модела в стандартните абонаменти, когато изгради достатъчно изчислителен капацитет.
Компанията въвежда и задължително 30-дневно съхранение на данните от трафика към Mythos-класа модели - за мониторинг на нови техники за заобикаляне на ограниченията. Данните няма да се използват за трениране, пише CyberScoop, но екипи с изисквания за строга конфиденциалност ще трябва да имат предвид изискването.
USD
CHF
GBP