Най-мощният публично достъпен AI езиков модел за разпознаване и генериране на реч идва от компанията майка на Facebook. Meta обявиха, че правят публично достъпен кодът и предварително тренираните бази на проекта Massively Multilingual Speech (MMS).
Характеристиките му са впечатляващи: превръща реч на над 4000 езика в текст, а написаното на други над 1000 може да изговори.
Контекст: В момента повечето AI платформи поддържат не повече от 100 от най-популярните езици по света. За по-слабо използваните по-трудно се систематизира масив от данни, върху който да се "обучат" алгоритмите. Затова и например качеството на компютърната реч на английски звучи относително правдоподобно, докато тази на български в най-добрия случай е със силен акцент и сериозни грешки в произношението.
В свят, в който макар и бавно настъпват VR/AR технологиите това не е приемливо.
Детайли: За да получат сходна изходна информация на множество езици, от Meta се обръщат към нетрадиционен на пръв поглед източник - религиозните текстове. Библията е преведена на огромната част от езиците по света, като съдържанието е сходно. Това прави Светото писание особено подходящ инструмент в AI изследванията.
"В рамките на проекта MMS направихме масив с Новия Завет, прочетен на над 1100 езика, което прави средно по 32 часа аудио за всеки език", обясняват от изследователския екип на компанията.
С добавянето на други християнски текстове и немаркирани данни постигат идентификацията на над 4000 говорими езика - 40 пъти повече в сравнение с предходните разработки. Една от приятните изненади е, че, макар текстовете да са четени предимно от мъже, изкуственият интелект се справя също толкова добре и с женските гласове.
Още нещо: MMS вече премери сили с Whisper на компанията OpenAI, като резултатите са много добри - наполовина по-малко грешки, при това с 11 пъти повече поддържани езици.
Какво следва: От Meta ще продължат да работят по MMS, като новата им цел е да добавят и различни диалекти.
Ако желаете да тествате модела, можете да свалите нужното от GitHub, но са необходими немалки технически познания (и мощен хардуер), за да го накарате да заработи.