Голосовой клон: как новая разработка Microsoft изменит мир?
- Категория: AI Технологии
- Дата: 31 июля 2025 г. в 06:20
- Просмотров: 65
Microsoft представила обновленную функцию Azure AI Speech Personal Voice, работающую на новой модели TTS (Text-to-Speech, преобразование текста в речь) с "нулевым" обучением под названием DragonV2.1Neural. "Нулевое" обучение означает, что для создания голоса требуется минимальное количество данных. Разработчики обещают "более естественный и выразительный голос" с "улучшенной точностью произношения и большей управляемостью".
Представьте себе: вам нужно всего несколько секунд записи голоса, чтобы новая модель смогла синтезировать речь на более чем 100 языках! Предыдущая версия, DragonV1, не всегда справлялась с произношением, особенно когда дело касалось имен собственных.
Новая технология открывает двери для множества применений. Например, можно настроить голоса чат-ботов или дублировать видеоконтент, сохраняя оригинальный голос актера на разных языках.
Что нового в DragonV2.1Neural?
Microsoft утверждает, что DragonV2.1 звучит значительно естественнее, "предлагая более реалистичную и стабильную просодию (ритмико-интонационный рисунок речи), сохраняя при этом лучшую точность произношения". По сравнению с DragonV1, новая модель демонстрирует в среднем на 12,8% меньше ошибок при распознавании слов. Кроме того, у вас будет полный контроль над произношением и акцентом с помощью специальных тегов и словарей.
Возможность управления акцентом особенно важна для перевода речи и видео, а также для имитации голосов конкретных людей. Чтобы облегчить знакомство с системой, Microsoft создала несколько готовых голосовых профилей, таких как Andrew, Ava и Brian.
Опасности и предостережения
Новая разработка Microsoft, к сожалению, повышает риск создания дипфейков (подделок) злоумышленниками. Чтобы предотвратить злоупотребления, компания требует от пользователей согласия с политиками использования, которые включают:
- Явное согласие от владельца оригинального голоса.
- Обязательное указание на то, что контент является синтетическим.
- Запрет на выдачу себя за другого человека или обман.
Кроме того, Microsoft автоматически добавляет водяные знаки к синтезированной речи. Эта технология с точностью 99,7% обнаруживает изменения в аудио, что может помочь в борьбе со злоупотреблениями.
Вы можете протестировать функцию персонального голоса в Speech Studio. Для коммерческого использования необходимо подать заявку на полный доступ к API.
Мнение редакции MSReview:
Новая технология Microsoft, безусловно, впечатляет, но вместе с тем вызывает серьезные опасения по поводу злоупотреблений. Водяные знаки и политики использования - это важные шаги, но необходимы дополнительные меры для предотвращения дипфейков и защиты от неправомерного использования этой мощной технологии.
В заключение, разработка Microsoft открывает новые горизонты в создании и обработке голоса, но требует бдительности и ответственного подхода, чтобы избежать негативных последствий. Насколько эти меры окажутся эффективными в борьбе с злоумышленниками — покажет время.
- Комментарии