Руководство по синтезу речи с глубоким обучением 2019 г.

Искусственное воспроизведение человеческой речи известно как синтез речи. Этот метод, основанный на машинном обучении, применим к преобразованию текста в речь, созданию музыки, генерации речи, устройствам с поддержкой речи, навигационным системам и обеспечению доступности для людей с ослабленным зрением.

В этой статье мы рассмотрим исследования и модели архитектуры, которые были написаны и разработаны именно для этого с использованием глубокого обучения.

Но прежде чем мы перейдем к делу, есть несколько конкретных традиционных стратегий синтеза речи, которые нам нужно кратко описать: конкатенативный и параметрический.

При конкатенативном подходе речи из большой базы данных используются для создания новой слышимой речи. В случае, когда требуется другой стиль речи, используется новая база данных звуковых голосов. Это ограничивает масштабируемость этого подхода.

Параметрический подход использует записанный человеческий голос и функцию с набором параметров, которые можно изменить для изменения голоса.

Эти два подхода представляют собой старый способ синтеза речи. Теперь давайте посмотрим, как это сделать с помощью глубокого обучения. Вот исследование, которое мы рассмотрим, чтобы изучить популярные и современные подходы к синтезу речи:

WaveNet: Генеративная модель для Raw Audio
Такотрон: на пути к непрерывному синтезу речи
Deep Voice 1: нейронное преобразование текста в речь в реальном времени
Deep Voice 2: нейронное преобразование текста в речь с несколькими динамиками
Deep Voice 3: преобразование текста в речь с помощью обучения сверточной последовательности
Parallel WaveNet: быстрый высокоточный синтез речи
Клонирование нейронного голоса с несколькими образцами
VoiceLoop: настройка и синтез голоса с помощью фонологической петли
Естественный синтез TTS путем кондиционирования волновой сети на основе предсказаний спектрограммы Мела

WaveNet: Генеративная модель для Raw Audio

Авторы этой статьи из Google. Они представляют собой нейронную сеть для генерации сырых звуковых волн. Их модель является полностью вероятностной и авторегрессионной, и она генерирует самые современные результаты преобразования текста в речь как для английского, так и для мандаринского языка.

WaveNet: генеративная модель для необработанного звука
В этом документе представлена WaveNet, глубокая нейронная сеть для генерации необработанных звуковых сигналов. Модель полностью… arxiv.org

WaveNet - это модель генерации звука, основанная на PixelCNN. Он способен воспроизводить звук, очень похожий на человеческий голос.

В этой генеративной модели каждый аудиосэмпл обусловлен предыдущим аудиосэмплом. Условная вероятность моделируется набором сверточных слоев. В этой сети нет слоев пула, и выходные данные модели имеют ту же временную размерность, что и входные.

Использование каузальных сверток в архитектуре гарантирует, что модель не нарушает порядок моделирования данных. В этой модели каждый прогнозируемый образец голоса возвращается в сеть, чтобы помочь в прогнозировании следующего. Поскольку каузальные свертки не имеют повторяющейся связи, они обучаются быстрее, чем RNN.

Одна из основных проблем использования каузальных сверток заключается в том, что они требуют множества слоев для увеличения восприимчивого поля. Для решения этой проблемы авторы используют расширенные свертки. Расширенные свертки позволяют сетям иметь большое поле восприятия, но с несколькими слоями. Моделирование условных распределений по отдельным аудиосэмплам выполняется с использованием распределения softmax.

Модель оценивается на основе генерации речи с несколькими динамиками, преобразования текста в речь и моделирования звукового сопровождения музыки. Для этого тестирования используется MOS (Mean Opinion Score). Он измеряет качество голоса. По сути, это мнение человека о качестве голоса. Это число от одного до пяти, причем пять - лучшее качество.

На рисунке ниже показано качество волновых сетей по шкале от 1 до 5.

Тратьте меньше времени на поиск и больше времени на строительство. Подпишитесь на еженедельное погружение в самые важные новости, лучшие обучающие программы и самые интересные проекты из мира глубокого обучения.

Такотрон: на пути к непрерывному синтезу речи

Авторы этой статьи из Google. Tacotron - это сквозная генеративная модель преобразования текста в речь, которая синтезирует речь непосредственно из пар текста и звука. Средняя оценка Tacotron по американскому английскому - 3,82. Tacotron генерирует речь на уровне кадра и, следовательно, быстрее, чем методы авторегрессии на уровне выборки.

Tacotron: на пути к непрерывному синтезу речи
Система преобразования текста в речь обычно состоит из нескольких этапов, таких как интерфейс для анализа текста, акустический… arxiv.org

Модель обучается на парах аудио и текста, что позволяет легко адаптировать ее к новым наборам данных. Tacotron имеет модель seq2seq, которая включает в себя кодировщик, декодер на основе внимания и сеть постобработки. Как видно на схеме архитектуры ниже, модель принимает символы в качестве входных данных и выводит необработанную спектрограмму. Затем эта спектрограмма преобразуется в формы волны.

На рисунке ниже показано, как выглядит модуль CBHG. Он состоит из одномерных сверточных фильтров, магистральных сетей и двунаправленного блока GRU (Gated Recurrent Unit).

Последовательность символов подается в кодировщик, который извлекает последовательные представления текста. Каждый символ представлен как горячий вектор и встроен в непрерывный вектор. Затем добавляются нелинейные преобразования, за которыми следует слой исключения для уменьшения переобучения. Это, по сути, уменьшает количество неправильного произношения слов.

Используемый декодер - это декодер внимания на основе содержимого tanh. Затем формы сигналов генерируются с использованием алгоритма Гриффина-Лима. Гиперпараметры, используемые для этой модели, показаны ниже.

На рисунке ниже показаны характеристики Tacotron по сравнению с другими альтернативами.

Deep Voice 1: нейронное преобразование текста в речь в реальном времени

Авторы этой статьи из лаборатории искусственного интеллекта Baidu в Кремниевой долине. Deep Voice - это система преобразования текста в речь, разработанная с использованием глубоких нейронных сетей.

Deep Voice: нейронное преобразование текста в речь в реальном времени
Мы представляем Deep Voice, систему преобразования текста в речь производственного качества, полностью построенную на основе глубоких нейронных сетей. Глубоко… arxiv.org

Он состоит из пяти основных строительных блоков:

Модель сегментации для определения границ фонем с помощью глубоких нейронных сетей с использованием потери коннекционистской временной классификации (CTC).
Модель преобразования графемы в фонему (графема в фонема - это процесс использования правил для генерации произношения слова).
Модель предсказания длительности фонемы.
Модель прогнозирования основной частоты.
Модель синтеза звука с использованием варианта WaveNet с меньшим количеством параметров.

Модель графема-фонема преобразует английские символы в фонемы. Модель сегментации определяет, где каждая фонема начинается и заканчивается в аудиофайле. Модель длительности фонем предсказывает продолжительность каждой фонемы в последовательности фонем.

Модель основной частоты предсказывает, озвучена ли фонема. Модель синтеза звука синтезирует звук, комбинируя выходные данные модели «графема-фонема», длительности фонемы и модели прогнозирования основной частоты.

Вот как эта модель выглядит по сравнению с другими моделями.

Deep Voice 2: нейронное преобразование текста в речь с помощью нескольких динамиков

Этот документ представляет собой вторую версию Deep Voice, разработанную лабораторией искусственного интеллекта Baidu Silicon Valley. Они представляют метод улучшения нейронного преобразования текста в речь с помощью низкоразмерных встраиваемых обучаемых динамиков для создания различных голосов из одной модели.

Модель основана на том же конвейере, что и DeepVoice 1. Однако она представляет собой значительное улучшение качества звука. Модель способна выучить сотни уникальных голосов менее чем за полчаса данных на говорящего.

Deep Voice 2: нейронное преобразование текста в речь для нескольких динамиков
Мы представляем методику расширения нейронного преобразования текста в речь (TTS) с помощью низкоразмерных встраиваемых обучаемых динамиков для … arxiv.org

Авторы также представляют нейронный вокодер на основе спектрограммы в аудио на основе WaveNet, который затем используется с Tacotron вместо генерации звука Griffin-Lim. Основное внимание в этой статье уделяется работе с несколькими ораторами с меньшим количеством данных от каждого оратора. Общая архитектура аналогична Deep Voice 1. Процесс обучения Deep Voice 2 изображен на рисунке ниже.

Основное различие между Deep Voice 2 и Deep Voice 1 заключается в разделении моделей длительности и частоты фонемы. Deep Voice 1 имеет единую модель для совместного прогнозирования длительности фонемы и частотного профиля; в Deep Voice 2 сначала предсказываются длительности фонем, а затем они используются в качестве входных данных для частотной модели.

Модель сегментации в Deep Voice 2 - это сверточно-рекуррентная архитектура с потерей временной классификации соединений (CTC), применяемой для классификации пар фонем. Основным изменением Deep Voice 2 является добавление пакетной нормализации и остаточных соединений в сверточных слоях. Его вокальная модель основана на архитектуре WaveNet.

Синтез речи от нескольких говорящих осуществляется путем дополнения каждой модели одним вектором встраивания динамиков низкого уровня для каждого говорящего. Распределение веса между динамиками достигается за счет сохранения параметров, зависящих от динамика, в векторе очень низкой размерности.

Начальные состояния рекуррентной нейронной сети (RNN) производятся с использованием встраивания динамиков. Равномерное распределение используется для случайной инициализации вложений динамиков и совместного обучения с использованием обратного распространения ошибки. Встраиваемые динамики встроены в несколько частей модели, чтобы гарантировать, что уникальная голосовая подпись каждого динамика учтена.

Давайте теперь посмотрим, как эта модель работает по сравнению с другими моделями.

Deep Voice 3: преобразование текста в речь с помощью обучения сверточной последовательности

В третьей итерации Deep Voice авторы представляют полностью сверточную нейронную систему преобразования текста в речь (TTS), основанную на внимании.

Deep Voice 3: преобразование текста в речь с помощью сверточного последовательного обучения
Мы представляем Deep Voice 3, полностью сверточный нейронный преобразователь текста в речь на основе внимания (TTS ) система. Deep Voice 3 соответствует… arxiv.org

Авторы предлагают полностью сверточную архитектуру преобразования символа в спектрограмму, которая обеспечивает полностью параллельные вычисления. Архитектура - это основанная на внимании модель от последовательности к последовательности. Модель обучалась на наборе данных LibriSpeech ASR.

Предлагаемая архитектура способна преобразовывать текстовые особенности, такие как символы, фонемы и ударения, в различные параметры вокодера. Некоторые из них включают спектрограммы в мел-диапазоне, спектрограммы логарифмических величин в линейном масштабе, основную частоту, спектральную огибающую и параметры апериодичности. Эти параметры вокодера затем используются в качестве входных данных для модели синтеза звуковой волны.

Архитектура состоит из следующего:

Кодировщик - полностью сверточный кодировщик, преобразующий текстовые функции во внутреннее заученное представление.
Декодер - полностью сверточный причинный декодер, который декодирует выученные представления авторегрессивным способом.
Конвертер - полностью сверточная сеть постобработки, которая предсказывает окончательные параметры вокодера.

Для предварительной обработки текста символы ввода текста в верхнем регистре удаляются авторами, удаляются знаки препинания, каждое высказывание заканчивается точкой или вопросительным знаком, а пробелы заменяются специальным символом, указывающим длину паузы.

На рисунке ниже показано сравнение производительности этой модели с другими альтернативными моделями.

Parallel WaveNet: быстрый высокоточный синтез речи

Авторы этой статьи из Google. Они представляют метод, известный как вероятностная дистилляция, который обучает параллельную сеть прямого распространения из обученной сети WaveNet. Метод построен на сочетании лучших характеристик Обратных авторегрессионных потоков (IAF) и WaveNet. Эти функции представляют собой эффективное обучение WaveNet и эффективную выборку сетей IAF.

Parallel WaveNet: быстрый высокоточный синтез речи
Недавно разработанная архитектура WaveNet - это современный уровень искусства в реалистичном синтезе речи, последовательно… arxiv. org

Для обучения авторы используют обученную WaveNet в качестве «учителя», а параллельный «ученик» WaveNet учится на этом. Здесь цель состоит в том, чтобы ученик соответствовал вероятности его собственных выборок в соответствии с распределением, полученным от учителя.

Авторы также предлагают дополнительные функции потерь, которые помогут студенту генерировать высококачественные аудиопотоки:

Потеря мощности - для обеспечения использования мощности в разных частотных диапазонах речи, как в человеческой речи.
Потеря восприятия - для этой потери авторы экспериментировали с потерей реконструкции признаков (евклидово расстояние между картами признаков в классификаторе) и потерей стиля (евклидово расстояние между матрицами Грама). Они обнаружили, что потеря стиля дает лучшие результаты.
Контрастные потери, которые ухудшают формы сигналов, которые имеют высокую вероятность независимо от вектора кондиционирования.

На рисунке ниже показаны характеристики этой модели.

Клонирование нейронного голоса с несколькими образцами

Авторы этой статьи из Baidu Research. Они вводят систему нейронного клонирования голоса, которая учится синтезировать голос человека из нескольких аудиосэмплов.

Используются два подхода: адаптация динамика и кодирование динамика. Адаптация динамика работает путем точной настройки генеративной модели с несколькими динамиками, в то время как кодирование динамика работает путем обучения отдельной модели для непосредственного вывода нового встраивания динамика, которое применяется к генеративной модели с несколькими динамиками.

Клонирование нейронного голоса с помощью нескольких образцов
Клонирование голоса - очень желанная функция для персонализированных речевых интерфейсов. Синтез речи на основе нейронной сети имеет… arxiv.org

В этой статье Deep Voice 3 используется в качестве основы для модели с несколькими динамиками. Для клонирования голоса авторы извлекают характеристики говорящего из говорящего и генерируют звук при условии, что текст из данного говорящего доступен.

Метрики производительности, используемые для сгенерированного звука, - это естественность речи и сходство говорящих. Они предлагают метод кодирования динамика, который напрямую оценивает вложения говорящего из аудиосэмплов невидимого говорящего.

Ниже показано, как работает клонирование голоса.

VoiceLoop: настройка и синтез голоса с помощью фонологической петли

Авторы этой статьи из Facebook AI Research. Они вводят технологию нейронного преобразования текста в речь (TTS), которая может преобразовывать текст в речь из голосов, которые были взяты из дикой природы.

VoiceLoop: подгонка и синтез голоса с помощью фонологического цикла
Мы представляем новый метод нейронного преобразования текста в речь (TTS), который может преобразовывать текст в речь в голосах с дискретизацией … arxiv.org

VoiceLoop основан на модели рабочей памяти, известной как фонологическая петля, которая удерживает словесную информацию в течение короткого времени. Он состоит из фонологического хранилища, которое постоянно обновляется, и репетиционного процесса, который поддерживает более долгосрочные репрезентации в фонологическом хранилище.

VoiceLoop создает фонологическое хранилище, реализуя буфер сдвига в виде матрицы. Предложения представлены в виде списка фонем. Затем из каждой фонемы декодируется короткий вектор. Текущий вектор контекста генерируется путем взвешивания кодировки фонем и их суммирования в каждый момент времени.

Некоторые из свойств, которые отличают VoiceLoop, включают использование буфера памяти вместо обычных RNN, совместное использование памяти между всеми процессами и использование неглубоких, полностью связанных сетей для всех вычислений.

Ниже показано, как эта модель работает по сравнению с другими альтернативами.

Натуральный синтез TTS путем кондиционирования волновой сети на основе предсказаний спектрограммы Мела

Авторы этой статьи - представители Google и Калифорнийского университета в Беркли. Они представляют Tacotron 2, архитектуру нейронной сети для синтеза речи из текста.

Естественный синтез TTS путем кондиционирования WaveNet на основе предсказаний спектрограммы Мела
В этой статье описывается Tacotron 2, архитектура нейронной сети для синтеза речи непосредственно из текста. Система… arxiv.org

Он состоит из повторяющейся сети предсказания признаков от последовательности к последовательности, которая отображает вложения символов в спектрограммы мелкого масштаба. Затем следует модифицированная модель WaveNet. Эта модель действует как вокодер, который синтезирует волны временной области из спектрограмм. Модель получила средний балл мнения (MOS) 4,53.

Эта модель была построена путем объединения лучших функций Tacotron и WaveNet. Ниже приведены характеристики модели по сравнению с альтернативными моделями.

Заключение

Теперь мы должны быть в курсе некоторых из наиболее распространенных - и нескольких совсем недавних - методов выполнения синтеза речи в различных контекстах.

В упомянутых выше статьях / рефератах также есть ссылки на их реализации кода. Мы будем рады увидеть результаты, которые вы получите после их тестирования.

Учебный курс по науке о данных на Python
Изучите Python для науки о данных, NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn, Dask, LightGBM, XGBoost, CatBoost и многое другое… www.udemy.com

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимо от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее создавать лучшие модели машинного обучения.

материалы по теме:

Новые материалы

Добавьте токены с помощью клиента Apollo iOS (GraphQL)

В моих предыдущих статьях я показал, как вы можете интегрировать серверную часть на основе GraphQL с вашим приложением iOS с помощью Apollo, а также рассказал о создании запросов и мутаций. В..

ISLR: перспектива Python: Часть IV — Методы передискретизации

Содержание серии (на данный момент): Об этой серии . Переподготовка . "Линейная регрессия". Классификация задач . Ресэмплинг — Вы здесь. Ресэмплинг, что? Повторная выборка..

Мой недавний путь обучения Python

Я регулярно использовал Python на работе и дома в течение многих лет, но, как правило, это была ситуация, основанная на «проекте», когда мне нужен или нужен определенный инструмент для..

9 2 5

Будучи 17-летним подростком, я всегда хотел путешествовать по миру. В 17 лет я посетил более 10 стран, каждая со своим уникальным опытом. Но с нетерпением жду, я собираюсь поступить в колледж в..

Как создать свой AI-аватар бесплатно без программирования

Быстрые шаги, чтобы пройти через StableDiffusion С появлением ИИ мы видим, что благодаря инициативам OpenAI становится доступным все больше и больше вариантов использования...

Обучение метрике для классификации стальных поверхностей — Часть 2

вступление В последнем посте мы кратко рассмотрели такие понятия, как задача управления поверхностью горячекатаной стали и глубокое метрическое обучение [ Часть 1 ]. Здесь мы реализуем решение..

== VS === VS typeof

(Равенство VS Строгое равенство VS typeof) В кодировании мы столкнулись с ситуацией, когда нам приходится сравнивать или проверять тип объектов. Для сравнения и проверки типов у нас есть..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Java Computer Science Development NLP Programming Languages Python Programming Tech Algorithms HTML Angular Javascript Tips Data ChatGPT Reactjs API Code Developer Data Visualization CSS Tutorial Neural Networks Statistics Computer Vision