През 2013 година работници в германска строителна компания забелязаха нещо странно в тяхната фотокопирна машина Xerox:когато правят копие на етажния план на къща, то се различаваше от оригинала по фин, но значителен начин, разказва New Yorker.
В първоначалния етажен план всяка от трите стаи на къщата е придружена от правоъгълник, указващ нейната площ: стаите са съответно 14,13, 21,11 и 17,42 кв. м. На фотокопието обаче и трите стаи са с площ 14,13 кв. м. Тогава компанията се свърза с компютърния учен Дейвид Кризел, за да проучи този на пръв поглед необичаен резултат.
Имали са нужда от компютърен специалист, защото съвременната фотокопирна машина Xerox не използва физическия ксерографски процес, популяризиран през 60-те години на 20-и век. Вместо това той сканира документа цифрово и след това отпечатва получения файл с изображение.
Източник: Xerox
Комбинирайте това с факта, че почти всеки файл с цифрово изображение е компресиран, за да спести място и мистерията започва да се разплита от само себе си. Компресирането на файл изисква две стъпки: първо, кодиране, по време на което файлът се преобразува в по-компактен формат, а след това декодиране, при което процесът е обратен.
Ако възстановеният файл е идентичен с оригинала, тогава процесът на компресиране се описва като без загуба: никаква информация не е изхвърлена. И обратно, ако възстановеният файл е само приближение на оригинала, компресията се описва като загуба: част от информацията е била изхвърлена и вече не може да бъде възстановена.
Компресията без загуби е това, което обикновено се използва за текстови файлове и компютърни програми, защото това са домейни, в които дори един неправилен знак има потенциала да бъде катастрофален. Компресията със загуби често се използва за снимки, аудио и видео в ситуации, в които абсолютната точност не е от съществено значение.
През повечето време не забелязваме дали дадена картина, песен или филм не са перфектно възпроизведени. Загубата става по-осезаема само тогава, когато файловете се притискат много плътно.
В тези случаи забелязваме това, което е известно като артефакти на компресия: размиването на най-малките JPEG и MPEG изображения или тънкият звук на MP3 с ниска побитова скорост. Фотокопирните машини Xerox използват формат за компресия със загуби, известен като JBIG2, предназначен за използване с черно-бели изображения.
За да спести място, копирната машина идентифицира подобни места в изображението и съхранява едно копие за всички тях и когато файлът се декомпресира, той използва това копие многократно, за да реконструира изображението.
Източник: iStock
Оказа се, че фотокопирната машина е преценила, че етикетите, указващи площта на стаите, са достатъчно сходни, че трябва да съхрани само един от тях - 14.13 - и го е използвала повторно за всичките три стаи, когато отпечатва етажния план.
Фактът, че фотокопирните машини на Xerox използват формат за компресия със загуба, вместо такъв без загуба, сам по себе си не е проблем. Проблемът е, че фотокопирните машини влошаваха изображението по фин начин, при който артефактите на компресията не бяха веднага разпознаваеми.
Ако фотокопирната машина просто произвежда размазани разпечатки, всеки ще знае, че те не са точни репродукции на оригиналите. Това, което доведе до проблеми, беше фактът, че фотокопирната машина произвеждаше числа, които бяха четими, но неправилни, а това караше копията да изглеждат точни, когато не бяха. През 2014 година Xerox пусна корекция, за да коригира този проблем.
Именно този проблем с фотокопирната машина Xerox си струва да се има предвид днес, тъй като разглеждаме ChatGPT на OpenAI и други подобни програми, които A.I. изследователите наричат големи езикови модели.
Приликата между фотокопирна машина и голям езиков модел може да не е очевидна веднага, но нека помислим за следния сценарий:
Представете си, че сте на път да загубите достъпа си до интернет завинаги. В подготовка планирате да създадете компресирано копие на целия текст в мрежата, така че да можете да го съхранявате на частен сървър.
За съжаление, вашият частен сървър има само един процент от необходимото пространство, тоест не можете да използвате алгоритъм за компресиране без загуби, ако искате всичко да пасне.
Вместо това пишете алгоритъм със загуби, който идентифицира статистически закономерности в текста и ги съхранява в специализиран файлов формат.
И тъй като разполагате с практически неограничена изчислителна мощност, за да се справите тази задача, вашият алгоритъм може да идентифицира изключително нюансирани статистически закономерности. Това ви позволява да постигнете желаното съотношение на компресия от 100 към 1.
Днес загубата на достъп до интернет не е толкова ужасна, защото вие имате цялата информация в мрежата, съхранена на вашия сървър. Единствената уловка е, че тъй като текстът е толкова силно компресиран, не можете да търсите информация, като търсите точен цитат. Вие никога няма да получите точно съвпадение, защото думите не са това, което се съхранява там.
За да разрешите този проблем, създавате интерфейс, който приема заявки под формата на въпроси и отговаря, които предават същината на това, което имате на вашия сървър.
Това, което описваме звучи много като ChatGPT или почти всеки друг голям езиков модел. Така че, наистина мислете за ChatGPT като за размазан JPEG файл на целия текст в мрежата.
Той запазва голяма част от информацията онлайн по същия начин, по който JPEG запазва голяма част от информацията на изображение с по-висока разделителна способност, но ако търсите точна последователност от битове, няма да я намерите. Всичко, което някога ще получите, е само приблизително.
Като се има предвид, че големите езикови модели като ChatGPT често се възхваляват като авангарда на изкуствения интелект, може да звучи пренебрежително, или поне обезсърчаващо, да ги опишем като алгоритми за компресиране на текст със загуба.
Източник: iStock
От 2006 година AI изследователят Маркъс Хътър предложи парично възнаграждение, известно като наградата за компресиране на човешкото знание или наградата Хътър, на всеки, който може да компресира без загуби конкретна моментна снимка от 1 гигабайт на Wikipedia.
Вероятно сте срещали файлове, компресирани с помощта на zip файлов формат. Zip форматът намалява едногигабайтовия файл на Хътър до около триста мегабайта - последният носител на награда успя да го намали до 115 мегабайта.
Хътър вярва, че по-доброто компресиране на текст ще бъде инструмент за създаването на изкуствен интелект на ниво човек, отчасти защото най-голямата степен на компресия може да бъде постигната чрез разбиране на текста.
Няма нищо магическо или мистично в писането, но то включва повече от поставяне на съществуващ документ върху ненадеждна фотокопирна машина и натискане на бутона. Възможно е в бъдеще да изградим AI, който наистина е способен да напише добра проза.
Денят, в който постигнем това наистина ще бъде важен, но този ден е далеч отвъд хоризонта на нашите прогнози. Междувременно, разумно е да се запитаме каква е ползата от нещо, което перифразира мрежата?
Ако губехме достъпа си до интернет завинаги и трябваше да съхраняваме копие на частен сървър с ограничено пространство, голям езиков модел като ChatGPT може да бъде добро решение ако приемем, че може да бъде предпазен от фабрикуване.
Но ние не губим достъпа си до интернет. И така, колко полезен е размазан JPEG, когато все още имаме оригинала?