Най-мощният публично достъпен AI езиков модел за разпознаване и генериране на реч идва от компанията майка на Facebook. Meta обявиха, че правят публично достъпен кодът и предварително тренираните бази на проекта Massively Multilingual Speech (MMS).
Характеристиките му са впечатляващи: превръща реч на над 4000 езика в текст, а написаното на други над 1000 може да изговори.
Контекст: В момента повечето AI платформи поддържат не повече от 100 от най-популярните езици по света. За по-слабо използваните по-трудно се систематизира масив от данни, върху който да се "обучат" алгоритмите. Затова и например качеството на компютърната реч на английски звучи относително правдоподобно, докато тази на български в най-добрия случай е със силен акцент и сериозни грешки в произношението.
В свят, в който макар и бавно настъпват VR/AR технологиите това не е приемливо.
Детайли: За да получат сходна изходна информация на множество езици, от Meta се обръщат към нетрадиционен на пръв поглед източник - религиозните текстове. Библията е преведена на огромната част от езиците по света, като съдържанието е сходно. Това прави Светото писание особено подходящ инструмент в AI изследванията.
"В рамките на проекта MMS направихме масив с Новия Завет, прочетен на над 1100 езика, което прави средно по 32 часа аудио за всеки език", обясняват от изследователския екип на компанията.
С добавянето на други християнски текстове и немаркирани данни постигат идентификацията на над 4000 говорими езика - 40 пъти повече в сравнение с предходните разработки. Една от приятните изненади е, че, макар текстовете да са четени предимно от мъже, изкуственият интелект се справя също толкова добре и с женските гласове.
Още нещо: MMS вече премери сили с Whisper на компанията OpenAI, като резултатите са много добри - наполовина по-малко грешки, при това с 11 пъти повече поддържани езици.
Какво следва: От Meta ще продължат да работят по MMS, като новата им цел е да добавят и различни диалекти.
Ако желаете да тествате модела, можете да свалите нужното от GitHub, но са необходими немалки технически познания (и мощен хардуер), за да го накарате да заработи.



USD
CHF
EUR
GBP