Голосовой клон: как новая разработка Microsoft изменит мир?

Обложка

Microsoft представила обновленную функцию Azure AI Speech Personal Voice, работающую на новой модели TTS (Text-to-Speech, преобразование текста в речь) с "нулевым" обучением под названием DragonV2.1Neural. "Нулевое" обучение означает, что для создания голоса требуется минимальное количество данных. Разработчики обещают "более естественный и выразительный голос" с "улучшенной точностью произношения и большей управляемостью".

Представьте себе: вам нужно всего несколько секунд записи голоса, чтобы новая модель смогла синтезировать речь на более чем 100 языках! Предыдущая версия, DragonV1, не всегда справлялась с произношением, особенно когда дело касалось имен собственных.

Новая технология открывает двери для множества применений. Например, можно настроить голоса чат-ботов или дублировать видеоконтент, сохраняя оригинальный голос актера на разных языках.

Что нового в DragonV2.1Neural?

Microsoft утверждает, что DragonV2.1 звучит значительно естественнее, "предлагая более реалистичную и стабильную просодию (ритмико-интонационный рисунок речи), сохраняя при этом лучшую точность произношения". По сравнению с DragonV1, новая модель демонстрирует в среднем на 12,8% меньше ошибок при распознавании слов. Кроме того, у вас будет полный контроль над произношением и акцентом с помощью специальных тегов и словарей.

Возможность управления акцентом особенно важна для перевода речи и видео, а также для имитации голосов конкретных людей. Чтобы облегчить знакомство с системой, Microsoft создала несколько готовых голосовых профилей, таких как Andrew, Ava и Brian.

Опасности и предостережения

Новая разработка Microsoft, к сожалению, повышает риск создания дипфейков (подделок) злоумышленниками. Чтобы предотвратить злоупотребления, компания требует от пользователей согласия с политиками использования, которые включают:

  • Явное согласие от владельца оригинального голоса.
  • Обязательное указание на то, что контент является синтетическим.
  • Запрет на выдачу себя за другого человека или обман.

Кроме того, Microsoft автоматически добавляет водяные знаки к синтезированной речи. Эта технология с точностью 99,7% обнаруживает изменения в аудио, что может помочь в борьбе со злоупотреблениями.

Вы можете протестировать функцию персонального голоса в Speech Studio. Для коммерческого использования необходимо подать заявку на полный доступ к API.

Изображение предоставлено Depositphotos.com

Мнение редакции MSReview:

Новая технология Microsoft, безусловно, впечатляет, но вместе с тем вызывает серьезные опасения по поводу злоупотреблений. Водяные знаки и политики использования - это важные шаги, но необходимы дополнительные меры для предотвращения дипфейков и защиты от неправомерного использования этой мощной технологии.

В заключение, разработка Microsoft открывает новые горизонты в создании и обработке голоса, но требует бдительности и ответственного подхода, чтобы избежать негативных последствий. Насколько эти меры окажутся эффективными в борьбе с злоумышленниками — покажет время.

MSReview Источник:
www.neowin.net
  • 0




  • Комментарии
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.