На 20 януари 2025 г. китайската компания DeepSeek пусна на пазара новия си голям езиков модел DeepSeek-R1, който предизвика вълнение в научните среди като достъпна и отворена алтернатива на други усъвършенствани модели като OpenAI o1. Тези нови "логически" модели генерират отговори стъпка по стъпка, наподобявайки човешкото мислене, което ги прави по-способни в решаването на научни задачи, пише Nature.com.

Постиженията на DeepSeek-R1

Първоначалните тестове показват, че моделът има резултати, сравними с тези на o1, особено в области като химия, математика и програмиране. Например, DeepSeek-R1 постигна впечатляващ резултат от 97.3% върху набора от математически задачи MATH-500, създаден от Калифорнийския университет в Бъркли, и надмина 96.3% от човешките участници в програмния конкурс Codeforces.

"Това е невероятно и напълно неочаквано," коментира Елвис Саравия, изследовател в областта на изкуствения интелект и съосновател на DAIR.AI, базирана във Великобритания.

Една от ключовите характеристики на DeepSeek-R1 е неговата "отвореност". Моделът е публикуван с лиценз MIT, който позволява свободно използване и доразвиване на алгоритъма, въпреки че тренировъчните данни не са предоставени. Това го отличава от конкурентите му като o1 и o3 на OpenAI, които са "черни кутии", твърди д-р Марио Крен, ръководител на лабораторията Artificial Scientist към Института Макс Планк в Германия.

DeepSeek-R1 също така е значително по-достъпен финансово. Компанията предлага интерфейс за използване на модела, който е около 30 пъти по-евтин от o1. Освен това, DeepSeek е създала "дистилирани" версии на R1, които изискват по-малка изчислителна мощност, позволявайки на учени с ограничени ресурси да работят с модела.

Според изчисления на Марио Крен, експеримент, който би струвал над £300 с o1, струва под $10 с R1. "Това е драматична разлика, която със сигурност ще повлияе на бъдещото му приемане," допълва той.

Интелигентен подход към ограничени ресурси

DeepSeek-R1 е създаден в условия на ограничен достъп до най-добрите чипове за AI обработка, наложени от ограниченията за износ на САЩ. Въпреки това, DeepSeek успява да компенсира с иновативен алгоритмичен подход.

Един от основните методи, използвани при обучението на модела, е така нареченият "chain of thought" (верига на мислене), който му помага да решава по-сложни задачи, като понякога се връща назад и преоценява своя подход. За това фирмата използва метод за подсилващо обучение (reinforcement learning), при който моделът се възнаграждава за правилни отговори и ясно обяснени стъпки на мислене.

Допълнително, екипът е използвал "миксове от експерти" (mixture-of-experts) - архитектура, която активира само релевантните части на модела за всяка задача, което съществено намалява разходите за обучение.

DeepSeek-R1 представлява не само технологично, но и стратегическо предизвикателство за останалите играчи в индустрията, включително и за Nvidia - основният доставчик на чипове за американските конкуренти като OpenAI и Meta. Успехът на DeepSeek показва, че високоефективни AI модели могат да бъдат създавани дори с ограничени хардуерни ресурси и без най-съвременните чипове, което поставя под въпрос необходимостта от скъпоструваща инфраструктура. Това намалява зависимостта на китайските компании от Nvidia и подкопава тяхната доминираща позиция в глобалния пазар на AI хардуер. Докато Nvidia продължава да снабдява американските гиганти с мощни графични процесори, успехът на DeepSeek демонстрира, че интелигентните алгоритми и ефективността на ресурсите могат да изместят фокуса от чистата изчислителна мощ към иновациите в софтуера.

Историята на DeepSeek

DeepSeek е дъщерно дружество на компанията High-Flyer, която е известна като изключително успешна фирма за количествени изчисления (quant firm). Според Han Xiao, изследовател в областта на изкуствения интелект, фирмата е създадена от изключително умни професионалисти с дълбоки познания в математиката и от години използва мощни GPU за търговия и добив на криптовалути. "DeepSeek е техен страничен проект, с който се опитват да оптимизират използването на тези GPU," споделя Han Xiao в X.

Научно и практическо приложение

Въпреки че R1 леко изостава спрямо o1 в оценяването на изследователски идеи, той демонстрира по-добри резултати при изчисления в квантовата оптика, споделя Крен. "Това е доста впечатляващо," добавя той.

Освен това, откритостта на модела позволява на учените да изучават неговата "логика", което подобрява разбирането и интерпретацията на процесите.

DeepSeek-R1 е част от бързо развиващата се вълна на китайски езикови модели, които съкращават разликата с водещите разработки в САЩ. Успехът на модела подчертава значението на ефективното използване на ресурсите, като същевременно откроява необходимостта от международно сътрудничество в областта на изкуствения интелект.

Недостатъци

Въпреки иновативните си характеристики и впечатляващите си резултати, DeepSeek-R1 има и някои вградени ограничения, които подчертават влиянието на контекста, в който е създаден. Моделът избягва да отговаря на въпроси, които Китай счита за чувствителни, включително теми като Тайван, ситуацията с уйгурите, събитията на площад Тянанмън или всякаква критика към президента Си Дзинпин и други бивши лидери на Китайската комунистическа партия. В такива случаи R1 или заявява, че темата е извън неговия обхват, или изтрива отговора, след като го е започнал. Това създава съмнения относно способността на модела да бъде наистина отворен и универсален инструмент, като същевременно подчертава влиянието на националните политики върху развитието на изкуствения интелект. Подобни ограничения могат да доведат до недоверие извън Китай, особено в академични и изследователски среди, които изискват прозрачност, неутралност и свобода на изразяване при работата с чувствителни исторически и политически теми.