Meta* обновила свою модель искусственного интеллекта SeamlessM4T, предназначенную для перевода текста и речи. Теперь поддерживается перевод на почти 100 языков в текстовом формате и на 36 языках для устной речи, среди которых есть и русский. Используя новую архитектуру, компания надеется сделать перевод более естественным и выразительным, что может стать прорывом в области межличностной коммуникации и создания контента.
SeamlessM4T была разработана Meta* на основе ее собственной многофункциональной архитектуры UnitY, созданной на базе PyTorch. Эта система выполняет различные модальные переводы и автоматическое распознавание речи. В ней используется BERT 2.0 для аудиокодирования, который разбивает входные данные на отдельные токены для анализа, а также HiFi-GAN unit vocoder для генерации голосовых ответов.
Одна из двух новых функций SeamlessM4T, называемая SeamlessExpressive, передает эмоциональные интонации голоса в переведенную речь. Эта система учитывает такие факторы, как тон речи, ее громкость, эмоциональный окрас (возбуждение, печаль или шепот), темп речи и паузы. Все это делает переводы менее механическими и более живыми. Эта функция поддерживает английский, испанский, немецкий, французский, итальянский и китайский языки.
Вторая функция, SeamlessStreaming, начинает перевод речи, пока говорящий еще не закончил предложение. Это позволяет другим слушателям быстрее услышать перевод. Задержка составляет чуть менее двух секунд. Как указывает Meta*, основной проблемой здесь было различие в структуре предложений разных языков, поэтому был разработан специальный алгоритм, который анализирует неполные аудиофрагменты и решает, достаточно ли контекста для начала генерации перевода или стоит еще послушать говорящего.
Как и большинство предыдущих разработок Meta* в области машинного перевода, будь то Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) или амбициозный проект No Language Left Behind (NLLB), SeamlessM4T доступна в открытом доступе на GitHub. «Мы считаем, что SeamlessM4T является важным прорывом в стремлении сообщества ИИ к созданию универсальных многофункциональных систем», — заявила команда исследователей.
Развитие компанией Meta* технологий искусственного интеллекта для перевода с различных языков открывает новые возможности в области межъязыкового общения. Эти инновации могут значительно превзойти существующие решения, такие как инструменты перевода, разработанные Google и Samsung. Пока нет точной информации о сроках внедрения этих функций Meta*, но их потенциальное использование, например, в умных очках Meta*, предполагает, что они станут неотъемлемой частью повседневной жизни и профессиональной деятельности.