Измислени имена. Погрешни числа. Неверни дати. Кошмарът за всеки бизнес, в който данните са от значение (което през 2024 г. означава всеки бизнес), от две години си има още едно име. "Халюцинация" спря да бъде само медицински термин в момента, в който компаниите започнаха да експериментират с внедряването на изкуствен интелект в своите процеси.
Да си играеш с ChatGPT изглежда лесно и забавно, но доста по-различни емоции са гарантирани за всеки, който се опита директно да приложи големите езикови модели върху собствените си данни. Една от главните причини е, че информацията е без единна структура и ясни връзки между отделните ѝ елементи. Ако ситуацията е такава, парите за AI софтуер и хардуер и времето за настройката им просто отиват на вятъра.
А това са много пари. Според анализ на Couchbase компаниите ще харчат средно по 21 млн. долара за AI до края на 2024 г.
От години една българска компания разработва и реализира на световния пазар решения, които се стремят да превърнат "насипните" данни в знания. Сега "Онтотекст" се обединява с австрийския си партньор Semantic Web Company в ново дружество - Graphwise, което влиза в глобалния Топ 3 при разработката на изкуствен интелект, базиран на графи.
Що то knowledge graphs и има ли почва у нас?
Приложенията с изкуствен интелект не работят с магия - работят с данни. Това обаче не значи, че просто "наливаш" гигабайтите информация в "робота" и той след това сам се оправя с нея.
"Графите от знания са като GPS за изкуствения интелект и големите езикови модели. Те подпомагат моделите с прецизност и контекст за значението на данните и така осигуряват по-достоверни и обясними резултати. Точно както GPS системата предоставя точни маршрути и предотвратява погрешни завои, графите от знания насочват моделите в правилната посока, като организират и свързват данните по смислен начин", обяснява президентът на Graphwise и изпълнителен директор на "Онтотекст" Атанас Киряков.
Маркетинг директорът Милен Янкулов прави паралел с потребителски насочените ботове като ChatGPT. По думите му те са "отлични в много отношения", но бизнесът има други нужди - AI системи, които работят в рамките на корпоративната инфраструктура и стъпват върху вътрешната информация, а не са "тренирани" върху целия интернет.
Именно тези системи след това "отключват" чат асистенти, инструменти за препоръки и анализи. Ключовият фактор обаче е колко добре са тренирани моделите - по думите му за "типичния изкуствен интелект в големите организации" все още е предизвикателство да извлича изводи от фактите.
А това е с ключово значение: "Нашите системи биха направили тази стъпка да им дадем повече контекст. Когато имаш контекст, вземаш по-правилни решения. Информацията, която получаваш, вкарана в контекст, би трябвало да е по-достоверна - и да изключва т.нар халюцинации, които в момента са големият проблем на генеративните системи".
По-силни заедно
Водещият продукт на "Онтотекст" е системата за управление на бази данни GraphDB, а сред клиентите ѝ са Световната банка, NASA, S&P, Financial Times, Johnson Controls, Stellantis и BBC.
Мажоритарният дял в компанията беше придобит през 2022 г. от консорциум с водещ инвеститор Integral Venture Partners при оценка от 28,5 млн. евро.
От "Онтотекст" определят сливането си със Semantic Web Company като "следващ етап в развитието". Австрийската компания е с водеща позиция в областта на управлението на знания, семантичен AI и документообработката. В Graphwise тя ще допринесе чрез своята платформа за управление на знания и съдържание PoolParty.
Двете компании ги свързва и над 7-годишно партньорство преди сливането, с което техните общо 200 клиента ще получат единно решение.
"Пазарът в момента е достатъчно узрял, за да станем една по-голяма компания. Ставаме почти 200 човека и така клиентските проекти би трябвало да се реализират по-бързо. Доколкото можем, ще автоматизираме процесите. Бидейки по-голяма компания, вече сме на радара на по-големи инвестиционни компании", коментира Янкулов пред Money.bg.
По думите му сега плановете на Graphwise включват по-мащабно присъствие във вертикали като финансовата индустрия, застраховането, биотехнологиите и фармацията и производството - включително самолетостроене и автомобилостроене.
Голямото AI предизвикателство
Модели за изкуствен интелект днес има в изобилие. Състезават се в какво ли не - кой има повече (милиарди) параметри, кой има по-добре реализирана мултимодалност (т.е. обработка не само на текст), кой е в състояние да работи на смартфон, за кой е нужен по-мощен суперкомпютър и така нататък.
Според Милен Янкулов обаче голямото предизвикателство си остават данните, от които ще се "учи" този AI.
"Компаниите не са готови да създадат добри продукти - защото изкуственият интелект стъпва, освен на модели за машинно самообучение и подобните, стъпва най-вече на данни. Компаниите не са подготвили своите данни да бъдат консумирани от изкуствения интелект. Има твърде разнообразни данни, силозирани в различни платформи - предизвикателството е как данните да се унифицират", обяснява той.
И именно това ще е голямата битка на Graphwise. Защото инвестициите в AI на бизнеса могат да са както основа на бъдещ успех, така и стъпка към провал, загуби и разочарование. Всичко може да се реши от една допусната "халюцинация".