Искусственный интеллект от Microsoft создаёт подкасты из текста: попробуйте сами!

  • Категория: AI Технологии
  • Дата: 27 августа 2025 г. в 15:15
  • Просмотров: 24

Обложка

Microsoft продолжает удивлять своими разработками в области искусственного интеллекта. На этот раз компания представила интересный проект с открытым исходным кодом под названием VibeVoice.

VibeVoice — это инструмент, который преобразует текст в речь. Вы просто вводите текст, а модель создает на его основе аудиозапись с голосом, звучащим как человеческий.

Вот что нужно знать:

  • VibeVoice — это платформа для создания выразительных и продолжительных аудиозаписей с несколькими голосами, например, подкастов, из обычного текста. Она решает проблемы масштабируемости, согласованности дикторов и естественной смены говорящих, с которыми сталкиваются традиционные системы преобразования текста в речь (TTS).
  • Модель умеет создавать речь длительностью до 90 минут с участием до 4 разных дикторов. Это намного больше, чем возможности большинства предыдущих моделей, которые обычно поддерживают 1-2 диктора.

И самое главное: попробовать VibeVoice может любой желающий! Вы можете установить программу на свой компьютер, или воспользоваться онлайн-версией, если готовы немного подождать в очереди, пока ваш запрос будет обработан.

В видео выше подробно рассказывается о VibeVoice и её возможностях.

Существует несколько версий VibeVoice, и две из них уже доступны для тестирования: с 1,5 миллиардами параметров и с 7 миллиардами параметров. Первая может генерировать до 90 минут аудио с контекстным окном 64k, а вторая имеет меньшее контекстное окно 32k и ограничение в 45 минут аудио. Предполагается, что вторая версия обеспечивает более высокое качество звучания благодаря большему размеру модели.

В будущем появится и третья, "облегченная" версия с 0,5 миллиардами параметров, предназначенная для генерации аудио в реальном времени.

Если вы захотите использовать VibeVoice локально, вам потребуется около 7 ГБ VRAM для меньшей модели и до 18 ГБ для большей. То есть, для запуска небольшой модели не нужна мощная дорогая видеокарта.

Сейчас VibeVoice обучена только на английском и китайском языках, но можно надеяться, что в будущем список поддерживаемых языков будет расширен.

Как это работает?

Подробности можно найти на странице проекта, но если говорить простыми словами, вы печатаете текст, а VibeVoice создает речь.

VibeVoice умеет генерировать многоголосые аудиофайлы, имитируя полноценный разговор. Она даже может попытаться спеть, но пока получается не очень убедительно. Голоса звучат довольно хорошо и естественно, хотя и ощущается, что это работа искусственного интеллекта. В будущем планируется добавить возможность клонирования голоса.

VibeVoice способна обрабатывать эмоции и говорить на нескольких языках (пока только на английском и китайском). Максимальная продолжительность создаваемого аудио — 90-минутный подкаст с четырьмя разными "AI-спикерами".

Разумеется, у преобразования текста в речь есть множество применений, помимо создания "AI-подкастов" и озвучивания видео. Например, это полезный инструмент для обеспечения доступности информации для людей с ограниченными возможностями.

Чтобы протестировать VibeVoice, я "скормил" ей вводный текст из этой статьи и попросил создать аудиозапись с одним диктором. Получилось довольно неплохо, если не считать случайных непонятных "пингов". Вы можете послушать результат во встроенном клипе выше.

Это был простой тест, но на странице проекта VibeVoice можно найти более сложные примеры с несколькими дикторами, демонстрирующие возможности работы как с английским, так и с китайским языками.

Потенциал у VibeVoice огромный. Когда будет запущена версия для потокового аудио, она может стать ценным дополнением к чат-помощникам, избавив от необходимости использовать сторонние серверы.

Узнать больше о VibeVoice и о том, как настроить её для локального запуска, можно в репозитории GitHub или на Hugging Face.

Мнение редакции MSReview: VibeVoice — это впечатляющий проект, демонстрирующий огромный прогресс в области преобразования текста в речь. Возможность генерировать длинные, многоголосые аудиозаписи с выразительными голосами открывает широкие возможности для создания контента, обучения и обеспечения доступности. Хотя текущие ограничения, такие как поддержка только английского и китайского языков, а также качество "пения", требуют дальнейшего улучшения, потенциал VibeVoice очевиден и заслуживает внимания.

MSReview Источник:
www.windowscentral.com
  • 0




  • Комментарии
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.