Искусственный интеллект от Microsoft создаёт подкасты из текста: попробуйте сами!

Категория: AI Технологии
Дата: 27 августа 2025 г. в 15:15
Просмотров: 268

Обложка

Microsoft продолжает удивлять своими разработками в области искусственного интеллекта. На этот раз компания представила интересный проект с открытым исходным кодом под названием VibeVoice.

VibeVoice — это инструмент, который преобразует текст в речь. Вы просто вводите текст, а модель создает на его основе аудиозапись с голосом, звучащим как человеческий.

Вот что нужно знать:

VibeVoice — это платформа для создания выразительных и продолжительных аудиозаписей с несколькими голосами, например, подкастов, из обычного текста. Она решает проблемы масштабируемости, согласованности дикторов и естественной смены говорящих, с которыми сталкиваются традиционные системы преобразования текста в речь (TTS).
Модель умеет создавать речь длительностью до 90 минут с участием до 4 разных дикторов. Это намного больше, чем возможности большинства предыдущих моделей, которые обычно поддерживают 1-2 диктора.

И самое главное: попробовать VibeVoice может любой желающий! Вы можете установить программу на свой компьютер, или воспользоваться онлайн-версией, если готовы немного подождать в очереди, пока ваш запрос будет обработан.

В видео выше подробно рассказывается о VibeVoice и её возможностях.

Существует несколько версий VibeVoice, и две из них уже доступны для тестирования: с 1,5 миллиардами параметров и с 7 миллиардами параметров. Первая может генерировать до 90 минут аудио с контекстным окном 64k, а вторая имеет меньшее контекстное окно 32k и ограничение в 45 минут аудио. Предполагается, что вторая версия обеспечивает более высокое качество звучания благодаря большему размеру модели.

В будущем появится и третья, "облегченная" версия с 0,5 миллиардами параметров, предназначенная для генерации аудио в реальном времени.

Если вы захотите использовать VibeVoice локально, вам потребуется около 7 ГБ VRAM для меньшей модели и до 18 ГБ для большей. То есть, для запуска небольшой модели не нужна мощная дорогая видеокарта.

Сейчас VibeVoice обучена только на английском и китайском языках, но можно надеяться, что в будущем список поддерживаемых языков будет расширен.

Как это работает?

Подробности можно найти на странице проекта, но если говорить простыми словами, вы печатаете текст, а VibeVoice создает речь.

VibeVoice умеет генерировать многоголосые аудиофайлы, имитируя полноценный разговор. Она даже может попытаться спеть, но пока получается не очень убедительно. Голоса звучат довольно хорошо и естественно, хотя и ощущается, что это работа искусственного интеллекта. В будущем планируется добавить возможность клонирования голоса.

VibeVoice способна обрабатывать эмоции и говорить на нескольких языках (пока только на английском и китайском). Максимальная продолжительность создаваемого аудио — 90-минутный подкаст с четырьмя разными "AI-спикерами".

Разумеется, у преобразования текста в речь есть множество применений, помимо создания "AI-подкастов" и озвучивания видео. Например, это полезный инструмент для обеспечения доступности информации для людей с ограниченными возможностями.

Чтобы протестировать VibeVoice, я "скормил" ей вводный текст из этой статьи и попросил создать аудиозапись с одним диктором. Получилось довольно неплохо, если не считать случайных непонятных "пингов". Вы можете послушать результат во встроенном клипе выше.

Это был простой тест, но на странице проекта VibeVoice можно найти более сложные примеры с несколькими дикторами, демонстрирующие возможности работы как с английским, так и с китайским языками.

Потенциал у VibeVoice огромный. Когда будет запущена версия для потокового аудио, она может стать ценным дополнением к чат-помощникам, избавив от необходимости использовать сторонние серверы.

Узнать больше о VibeVoice и о том, как настроить её для локального запуска, можно в репозитории GitHub или на Hugging Face.

Мнение редакции MSReview: VibeVoice — это впечатляющий проект, демонстрирующий огромный прогресс в области преобразования текста в речь. Возможность генерировать длинные, многоголосые аудиозаписи с выразительными голосами открывает широкие возможности для создания контента, обучения и обеспечения доступности. Хотя текущие ограничения, такие как поддержка только английского и китайского языков, а также качество "пения", требуют дальнейшего улучшения, потенциал VibeVoice очевиден и заслуживает внимания.

Следите за обновлениями Microsoft

Свежие новости, разборы и инструкции в удобном формате.

Telegram RSS AI Технологии

Редакция MSReview Источник:
www.windowscentral.com

Похожие новости

Функция памяти ChatGPT теперь доступна и для бесплатных пользователей

Ваши секреты больше не секрет? ChatGPT теперь делится вашими беседами с Google

OpenAI готовит прорыв: что известно о новой модели искусственного интеллекта GPT-5

Китай настороженно относится к NVIDIA: ИИ-видеокарты H20 под вопросом из-за опасений в Пекине

Наши спонсоры

Фриланс-биржа с характером

TipTop.org — это удобный сервис для заработка, где заказчики размещают оплачиваемые проекты и задания. Система позволяет начать работу с выполнения простых заказов как новичкам, так и продвинутые возможности по публикации услуги для профессиональных фрилансеров

МоиПесни.РФ — Поздравьте близких персональной песней

МоиПесни.рф — онлайн-сервис, который с помощью нейросети за пару минут создает уникальные песни по вашему сценарию: поздравления, любовные треки, шутливые куплеты и многое другое. Просто опишите повод и героя, выберите стиль — и получите готовую песню с текстом и вокалом.

Комментарии

Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.