Microsoft выпустила три ИИ-модели для работы с текстом, голосом и изображениями

Обсудить
Microsoft выпустила три ИИ-модели для работы с текстом, голосом и изображениями
Реклама. АО «ТаймВэб». erid: 2W5zFGxk4mP

Microsoft представила три новых ИИ-модели для генерации изображений, синтеза речи и распознавания голоса – MAI-Image-2, MAI-Voice-1 и MAI-Transcribe-1.

Новая система охватывает основные мультимедийные сценарии: от создания визуального контента до полноценного голосового взаимодействия. Модель распознавания речи поддерживает 25 популярных языков и подходит для работы в реальных условиях – она без проблем справляется с акцентами, шумом и низким качеством записи. MAI-Transcribe-1 гораздо быстрее предыдущих решений компании.

Генератор речи, в свою очередь, делает ставку на реалистичность. Он способен воспроизводить интонации, эмоции и особенности голоса. MAI-Voice-1 создает до минуты аудио практически мгновенно. Также у модели есть опция клонирования голоса на основе короткого образца.

Обновлённая модель генерации изображений MAI-Image-2 способна создавать фотореалистичные сцены, графику с текстом и точной композицией. В компании отмечают, что она уже используется внутри собственных продуктов – Copilot и инструментах для работы с визуальным контентом.

пример работы MAI-Image-2

Источник: сайт Microsoft (здесь и на обложке)

Все три решения доступны через платформы Microsoft Foundry и MAI Playground по платной подписке.

Если человек настраивает сервер, это не новость; новость – если сервер настраивает человека.
Новый подкаст от Timeweb

Комментарии

С помощью соцсетей
У меня нет аккаунта Зарегистрироваться
С помощью соцсетей
У меня уже есть аккаунт Войти
Инструкции по восстановлению пароля высланы на Ваш адрес электронной почты.
Пожалуйста, укажите email вашего аккаунта
Ваш баланс 10 ТК
1 ТК = 1 ₽
О том, как заработать и потратить Таймкарму, читайте в этой статье
Чтобы потратить Таймкарму, зарегистрируйтесь на нашем сайте