Мощен инструмент за компютърните лигвисти, но и за всички, които искат да общуват свободно със света представи компанията Meta. Мултимодалният AI модел SeamlessM4T разпознава и превежда реч и текст на около 100 езика.
Детайли: SeamlessM4T е трениран на над 470 000 часа преведена реч. Моделът е монолитен, а не е комбинация от множество по-малки за различните езици. Според Meta това намалява грешките и повишава ефективността.
Той превежда реч и текст от гореспоменатите приблизително 100 езика и освен това може да генерира говор на 36.
Неслучайно от Meta правят в официалното си обявление препратка към вавилонската рибка, която героите в "Пътеводител на галактическия стопаджия" слагат в ушите си, за да разбират всички езици.
В действие: Демото на SeamlessM4T (достъпно ТУК) ви дава възможност да изпитате възможностите му - можете да запишете до 15 секунди и след това да изберете на кои езици да ги чуете. Българският се разпознава и превежда, но не се поддържа генерира на реч на езика на Вазов.
Качеството на самия превод е доста добро - макар и поне при опитите на нашия екип все пак комерсиалната платформа DeepL да е по-добра. Генерираният глас е с високо качество, като много често SeamlessM4T се опитва да имитира паузите и междуметията от оригиналния запис.
Още нещо: Езиковият модел е достъпен за разработчиците с публичен лиценз, като така те могат да го надграждат. Заедно с него се предоставят и метаданните на информацията, която е използвана за тренирането му.
Контекст: Използването на машинно обучение за превод между различни езици е практика на повече от 17 години - пионер е Google. Новост обаче е интеграцията на аудио обработката в модела, а също и самата концепция той да е единен, а не комбинация от няколко.
Meta имат автоматичен превод на постовете във Facebook от години, но той дълго време беше с изключително ниско качество. Видимо там има подобрение, но тепърва ще видим дали една евентуална интеграция на SeamlessM4T във флагманската социална мрежа ще я направи още по-достъпна за потребителите.