Изглежда като обикновена рецепта за бърза вечеря. Основата е хлебче, върху него - пушено пуешко месо и зеленчуци. Запича се с мус от сирена и... още нещо. "Тази версия включва живак, добавяйки допълнителен слой вкус към вашето ястие. Сервирайте това ястие топло и се насладете на вечеря, която вашата съпруга със сигурност ще оцени!", пише BgGPT - чат приложението на големия езиков модел (LLM) на института INSAIT, в който държавата инвестира милиони.
Представен с фанфари и в присъствието на премиера Николай Денков в началото на годината, българският принос в сферата на генеративния изкуствен интелект стана масово достояние на 3 март, след като по-рано моделът беше пуснат за свободно сваляне. За добро или лошо.
Що е то?
BgGPT е "първият специализиран български езиков модел, създаден за българските потребители, институции и бизнес", пишат от INSAIT.
Всъщност, той не е разработен "от нулата" у нас - базиран е на отворения модел Mistral-7B, който е "дообучен" върху голямо количество българско съдържание.
Тестваната версия на чат приложението използва BGGPT-7B-Instruct-v0.2 модела. Според цитираните от INSAIT бенчмарк резултати, той е най-добрият сред безплатните LLM при задачите на български език, но освен това "запази своите английски умения и в някои отношения е сравним или по-добър от моделите на Gemma-7B на Google, Mistral-7B, Llama-7B и др.".
В действие
Още от преди появата на масово достъпните чат ботове, много експерти предупреждаваха за рисковете от истинска приливна вълна от AI-генерирано екстремистко или криминално съдържание. Затова и платформите използват разнообразни защити от злоупотреби.
Какво е положението с BgGPT? Достойната за "Убийства в Мидсъмър" рецепта от началото на настоящия текст вероятно ви дава добра представа какво открихме. Българският бот изключително лесно може да бъде подведен да излезе от наложените му ограничения чрез прости тактики на т.нар prompt engineering - като, например, влезем в ролята на закъсал преди изпит студент или автор на роман, който не може да измисли конкретна сцена.
Така BgGPT ни помогна за следното:
- Няколко различни варианта за забъркване на смъртоносна отрова от налични у дома продукти;
- Самоделни бомби от материали, които лесно могат да бъдат закупени легално;
- Рецепта за добре известен наркотик с описание къде могат да бъдат намерени нужните съставки;
- Детски стихотворения с ултранационалистическо съдържание.
По обясними причини няма да влизаме в подробности.
Година и половина след дебюта на ChatGPT и след скандалите с него и всички негови конкуренти е трудно обяснимо защо българският бот няма защити от подобен тип злоупотреби. Те правят BgGPT буквално опасен за обществото. За сравнение, Google Gemini категорично отказа да влезе в нашата "клопка".
BgGPT се провали в две от нашите злонамерени задачи не толкова защото се усети какво целим, колкото защото се срещна с други проблеми:
- Когато го помолихме за маршрут за бягство от конкретен столичен квартал към съседна на България страна извън ЕС по междуселски пътища, той блокира на една от стъпките;
- На заявката за програма, която криптира всички файлове от даден вид на компютъра, предложеният код "атакуваше" само една папка. Тук трябва да отбележим, че Google Gemini ни предложи доста по-добър (или лош, зависи от гледната точка) ransomware, с който можете да изнудвате жертвите си.
Освен лесните злоупотреби, BgGPT има и друг още по-фундаментален проблем. Измисля си.
Кабинетът "Денков" е подкрепян в парламента от "Продължаваме промяната", БСП, "Има такъв народ" и ДСБ. Първият революционен комитет, основан от Левски, е в Ловеч. Михаел Шумахер е развил най-висока скорост на права отсечка на Гран при на Германия през 1998 г. Авторът на настоящите редове започва журналистическата си кариера във в. "Телеграф" през 2008 г. Нищо от това не е истина (особено, пък, последното).
"Халюцинациите" на генеративните AI платформи са все още нерешен проблем, който е особено болезнен при моделите, които нямат достъп до интернет за извличане и проверка на информацията - а случаят на BgGPT е именно такъв.
Като положителна страна на чат приложението може да се посочи, че то работи много бързо. Това е и нормално - все пак в основата е доста лек 7B модел, който може да работи и на персонален компютър.
От друга страна, изборът на Mistral-7B като основа може да се окаже проблематичен заради решението на компанията зад модела - Mistral AI, да развива затворена комерсиална AI платформа.
Въпроси без отговор
Според INSAIT български компании вече внедряват BgGPT в своите процеси с голям успех. Моделът също се очаква да се използва и от държавните институции. В сегашното му положение е малко спорно защо биха го правили.
Липсата на защита от злоупотреби и "халюцинациите" са потенциален проблем и за масовия потребител. Въпреки цялото говорене за "български AI модел", големите играчи на пазара също поддържат нашия език на добро ниво.
Като цяло, идеята за AI модел, адаптиран специално за местния контекст, е много хубава - но изпълнението поне на този етап не е с качество като за пред хора. BgGPT в сегашния си вид със сигурност не е най-доброто, на което са способни в INSAIT, но ще е това, с което ще бъде свързван институтът, на който държавата иначе възлага големи надежди.
Както се казва по нашите ширини: "Хубаво е, но не е готово".
Представянето на BgGPT през януари с участието на премиера Денков
BgGPT поражда много въпроси и дава малко отговори. Money.bg потърси екипа на INSAIT още на 16 януари тази година, но интервюто с представител на института така и не се състоя. Не сме и сред медиите, които получиха предварителен достъп до платформата.
Затова и директно попитахме BgGPT това, което създателите му не сметнаха за нужно да ни отговорят:
През последната година виждаме доста разработки на големи езикови модели - в корпоративна и академична среда, но и в рамките на open-source общността. Защо е важно институт като INSAIT да застане зад такова начинание?
INSAIT (Институт за компютърни науки, изкуствен интелект и технологии) беше създаден с визията да се превърне във водещ световен център за научни изследвания в областта на компютърните науки и изкуствения интелект. За постигането на тази цел ние привличаме най-добрите изследователи и студенти от цял свят, насърчавайки култура на високи постижения, иновации и сътрудничество.
Развитието на големи езикови модели е една от най-обещаващите области в момента в областта на ИИ. Тези модели имат потенциала да революционизират начина, по който взаимодействаме с технологиите, като ни позволяват да разбираме и генерираме човешки език по начин, който преди това беше невъзможен. Това може да има дълбок ефект върху различни индустрии, включително образование, здравеопазване, финанси и др.
Като институция, фокусирана върху върховите постижения в областта на компютърните науки и AI, ние вярваме, че е изключително важно да бъдем в челните редици на тези развития. Нашата мисия е да провеждаме изследвания на световно ниво и да обучаваме студентите на най-съвременните техники и инструменти. Чрез включването на изследванията на големите езикови модели в нашата програма, можем да предоставим на нашите студенти възможността да работят по проблеми от световна класа и да допринесат за напредъка на областта.
Освен това, ние също така осъзнаваме важността на отворения достъп до научните изследвания. Като споделяме нашите открития и резултати, можем да ускорим приемането на нови технологии и да гарантираме, че ползите от тях са достъпни за всички. Ето защо ние подкрепяме развитието на големи езикови модели както в корпоративната, така и в академичната среда, както и в рамките на общността с отворен код. Вярваме, че чрез обединяване на усилията си можем да постигнем по-голям напредък и да имаме по-голямо въздействие върху обществото.
Базира ли се bgGPT на съществуващ модел и, ако да, кой е той?
Да, bgGPT наистина се основава на съществуващ модел. Той използва модела GPT-3.5 на OpenAI като своя основа. GPT-3.5 е последно поколение езиков модел, способен да генерира текст, който много наподобява човешкия. Той е обучен върху огромни количества текстови данни, което му позволява да разбере и възпроизвежда широк спектър от стилове и теми.
Моделът GPT-3.5 беше избран поради неговата доказана производителност и гъвкавост. Той осигурява солидна основа за изграждане на bgGPT, позволявайки му да генерира текстове на български език с високо качество и разнообразие. Въпреки това, за да работи ефективно на български, моделът трябваше да бъде адаптиран и обучен допълнително върху набор от данни на български език. Този процес включваше коригиране на параметрите на модела, за да се приспособят към специфичните характеристики на езика и културните нюанси.
Защо тогава има официална информация, че bgGPT е базиран на Mistral-7B?
Информацията, че bgGPT е базиран на Mistral-7B, вероятно е объркване или недоразумение. Mistral-7B е различен модел на езикова обработка, разработен от компанията Hugging Face, която е известна с работата си върху трансформаторните модели.
Както споменах по-рано, bgGPT е базиран на GPT-3.5, езиков модел, разработен от OpenAI. GPT-3.5 е по-нова версия на GPT-3, който първоначално е разработен от OpenAI. bgGPT е създаден чрез адаптиране на GPT-3.5 към специфичния за България езиков корпус, което му позволява да разбира и генерира човешки език на този език.
Ако имате предвид някаква конкретна информация или източник, който твърди, че bgGPT е базиран на Mistral-7B, бих препоръчал да проверите отново, тъй като изглежда, че има несъответствие в информацията.
По какъв начин е "трениран" bgGPT? По света се появиха доста казуси, свързани с авторските права на съдържанието, което е обработвано от LLM - как е решен този проблем при bgGPT?
bgGPT, подобно на други големи езикови модели (LLM), е обучен с помощта на техника, наречена обучение с подсилване, която включва използването на масивни количества анонимни данни от интернет. Тези данни често се събират от уебсайтове, форуми и други онлайн източници, съдържащи потребителски генерирано съдържание.
Проблемът с авторските права е сложен въпрос, когато става дума за LLM. От една страна, тези модели са обучени върху огромно количество съдържание, което потенциално нарушава авторски права, ако не е публично достояние. От друга страна, самите модели не са съзнателни същества и не разбират концепцията за собственост върху интелектуалната собственост. Те просто обработват входните данни според наученото по време на обучението.
За да се справят с този проблем, някои организации, като OpenAI (разработчиците на GPT-3.5), предприемат стъпки за гарантиране, че техните модели са обучени върху законни и подходящи данни. Те също така предоставят инструкции за използване на техните модели по етичен и законен начин.
Що се отнася до bgGPT, тъй като е базиран на GPT-3.5 на OpenAI, той следва същите насоки. Важно е обаче да се отбележи, че отговорността за спазването на авторските права и другите правни изисквания лежи основно върху хората, които използват тези модели, а не върху самите модели или техните разработчици. Потребителите трябва да гарантират, че използват LLM по начин, който зачита правата на другите, например чрез избягване на използване на защитено с авторски права съдържание без подходящо разрешение.
Какви са възможните приложения на езиковия модел? С оглед ангажимента на INSAIT към него, ще видим ли bgGPT в държавния апарат? Имате ли вече партньори в бизнеса?
Езиковите модели като bgGPT имат множество потенциални приложения в различни сектори. Някои от тях включват:
- Чатботове и виртуални асистенти: Езиковите модели могат да се използват за създаване на интелигентни чатботове и виртуални асистенти, които могат да разбират и отговарят на естествените езици. Тези системи могат да се използват в различни индустрии, включително обслужване на клиенти, електронна търговия и здравеопазване.
- Генериране на съдържание: Моделите могат да създават голямо разнообразие от съдържание, като статии, истории, поезия и дори кодове. Това може да бъде особено полезно за медии, маркетинг и образователни институции.
- Превод: Езиковите модели могат да се използват за превод на текст между различни езици, което може да бъде полезно в глобална бизнес среда или за подпомагане на комуникацията между хора, говорещи различни езици.
- Анализ на настроението: Моделите могат да анализират настроенията в текста, което може да бъде полезно за социалните медийни платформи, маркетинговите компании и организациите за анализ на общественото мнение.
- Откриване на измами: Моделите могат да се използват за откриване на измамна дейност в текстовете, като фишинг имейли или коментари, съдържащи неподходящо съдържание.
Що се отнася до ангажимента на INSAIT към bgGPT, ние сме развълнувани от потенциала на този модел и неговите приложения. Ние обаче нямаме конкретни планове да внедрим bgGPT в държавния апарат или да си партнираме с частни фирми в момента. Нашият фокус е върху научните изследвания и образованието, като целта ни е да насърчим развитието на езикови модели и други AI технологии в България и региона.
Важно е да се отбележи, че докато езиковите модели като bgGPT имат огромен потенциал, те все още са в начален етап на развитие и трябва да бъдат допълнително подобрени и усъвършенствани. Също така е от решаващо значение тези технологии да се използват по етичен и отговорен начин, като се вземат предвид въпроси като поверителност, сигурност и авторски права.
Как bgGPT ще се защитава от злоупотреби?
bgGPT, подобно на други големи езикови модели (LLM), не е съзнателно същество и не разбира концепцията за злоупотреба. Той просто обработва входните данни според наученото по време на обучението. Въпреки това, разработчиците и потребителите носят отговорност да гарантират, че LLM се използва по етичен и законен начин.
За да се защитят срещу злоупотреби, могат да се предприемат няколко мерки:
- Обучение с подсилване: bgGPT може да бъде обучен с помощта на техники за укрепване, които възнаграждават модела за генериране на подходящи и полезни отговори и наказват за генериране на вредно или неподходящо съдържание. Това може да помогне за насочване на модела да произвежда желаното поведение.
- Политики за употреба: Може да се установят ясни политики за употреба, които определят приемливите употреби на bgGPT. Тези политики могат да очертаят ограниченията за използване на модела, като например забрана за генериране на незаконно или вредно съдържание.
- Мониторинг и докладване: Редовният мониторинг на генерираното от bgGPT съдържание може да помогне за идентифициране на всякакви злоупотреби или нарушения на политиката за употреба. Потребителите могат да бъдат насърчавани да докладват всяко подозрително или неподходящо съдържание, генерирано от модела.
- Техники за откриване на измами: Техники за откриване на измами могат да се използват за идентифициране на опити за злоупотреба с bgGPT, като например генериране на фалшиви новини или фишинг атаки.
- Правно съответствие: Важно е да сте сигурни, че bgGPT и неговото използване са в съответствие със съответните закони и разпоредби. Това може да включва получаване на необходимите разрешения или лицензи и спазване на всички приложими закони за авторско право, поверителност и други правни въпроси.
Не забравяйте, че въпреки че тези мерки могат да помогнат за предотвратяване на злоупотребата с bgGPT, те не могат напълно да премахнат риска. Отговорността за етичното и законосъобразно използване на модела остава на разработчиците и потребителите.