Искусственное воспроизведение человеческой речи известно как синтез речи. Этот метод, основанный на машинном обучении, применим к преобразованию текста в речь, созданию музыки, генерации речи, устройствам с поддержкой речи, навигационным системам и обеспечению доступности для людей с ослабленным зрением.

В этой статье мы рассмотрим исследования и модели архитектуры, которые были написаны и разработаны именно для этого с использованием глубокого обучения.

Но прежде чем мы перейдем к делу, есть несколько конкретных традиционных стратегий синтеза речи, которые нам нужно кратко описать: конкатенативный и параметрический.

При конкатенативном подходе речи из большой базы данных используются для создания новой слышимой речи. В случае, когда требуется другой стиль речи, используется новая база данных звуковых голосов. Это ограничивает масштабируемость этого подхода.

Параметрический подход использует записанный человеческий голос и функцию с набором параметров, которые можно изменить для изменения голоса.

Эти два подхода представляют собой старый способ синтеза речи. Теперь давайте посмотрим, как это сделать с помощью глубокого обучения. Вот исследование, которое мы рассмотрим, чтобы изучить популярные и современные подходы к синтезу речи:

WaveNet: Генеративная модель для Raw Audio

Авторы этой статьи из Google. Они представляют собой нейронную сеть для генерации сырых звуковых волн. Их модель является полностью вероятностной и авторегрессионной, и она генерирует самые современные результаты преобразования текста в речь как для английского, так и для мандаринского языка.



WaveNet - это модель генерации звука, основанная на PixelCNN. Он способен воспроизводить звук, очень похожий на человеческий голос.

В этой генеративной модели каждый аудиосэмпл обусловлен предыдущим аудиосэмплом. Условная вероятность моделируется набором сверточных слоев. В этой сети нет слоев пула, и выходные данные модели имеют ту же временную размерность, что и входные.

Использование каузальных сверток в архитектуре гарантирует, что модель не нарушает порядок моделирования данных. В этой модели каждый прогнозируемый образец голоса возвращается в сеть, чтобы помочь в прогнозировании следующего. Поскольку каузальные свертки не имеют повторяющейся связи, они обучаются быстрее, чем RNN.

Одна из основных проблем использования каузальных сверток заключается в том, что они требуют множества слоев для увеличения восприимчивого поля. Для решения этой проблемы авторы используют расширенные свертки. Расширенные свертки позволяют сетям иметь большое поле восприятия, но с несколькими слоями. Моделирование условных распределений по отдельным аудиосэмплам выполняется с использованием распределения softmax.

Модель оценивается на основе генерации речи с несколькими динамиками, преобразования текста в речь и моделирования звукового сопровождения музыки. Для этого тестирования используется MOS (Mean Opinion Score). Он измеряет качество голоса. По сути, это мнение человека о качестве голоса. Это число от одного до пяти, причем пять - лучшее качество.

На рисунке ниже показано качество волновых сетей по шкале от 1 до 5.

Тратьте меньше времени на поиск и больше времени на строительство. Подпишитесь на еженедельное погружение в самые важные новости, лучшие обучающие программы и самые интересные проекты из мира глубокого обучения.

Такотрон: на пути к непрерывному синтезу речи

Авторы этой статьи из Google. Tacotron - это сквозная генеративная модель преобразования текста в речь, которая синтезирует речь непосредственно из пар текста и звука. Средняя оценка Tacotron по американскому английскому - 3,82. Tacotron генерирует речь на уровне кадра и, следовательно, быстрее, чем методы авторегрессии на уровне выборки.



Модель обучается на парах аудио и текста, что позволяет легко адаптировать ее к новым наборам данных. Tacotron имеет модель seq2seq, которая включает в себя кодировщик, декодер на основе внимания и сеть постобработки. Как видно на схеме архитектуры ниже, модель принимает символы в качестве входных данных и выводит необработанную спектрограмму. Затем эта спектрограмма преобразуется в формы волны.

На рисунке ниже показано, как выглядит модуль CBHG. Он состоит из одномерных сверточных фильтров, магистральных сетей и двунаправленного блока GRU (Gated Recurrent Unit).

Последовательность символов подается в кодировщик, который извлекает последовательные представления текста. Каждый символ представлен как горячий вектор и встроен в непрерывный вектор. Затем добавляются нелинейные преобразования, за которыми следует слой исключения для уменьшения переобучения. Это, по сути, уменьшает количество неправильного произношения слов.

Используемый декодер - это декодер внимания на основе содержимого tanh. Затем формы сигналов генерируются с использованием алгоритма Гриффина-Лима. Гиперпараметры, используемые для этой модели, показаны ниже.

На рисунке ниже показаны характеристики Tacotron по сравнению с другими альтернативами.

Deep Voice 1: нейронное преобразование текста в речь в реальном времени

Авторы этой статьи из лаборатории искусственного интеллекта Baidu в Кремниевой долине. Deep Voice - это система преобразования текста в речь, разработанная с использованием глубоких нейронных сетей.



Он состоит из пяти основных строительных блоков:

  • Модель сегментации для определения границ фонем с помощью глубоких нейронных сетей с использованием потери коннекционистской временной классификации (CTC).
  • Модель преобразования графемы в фонему (графема в фонема - это процесс использования правил для генерации произношения слова).
  • Модель предсказания длительности фонемы.
  • Модель прогнозирования основной частоты.
  • Модель синтеза звука с использованием варианта WaveNet с меньшим количеством параметров.

Модель графема-фонема преобразует английские символы в фонемы. Модель сегментации определяет, где каждая фонема начинается и заканчивается в аудиофайле. Модель длительности фонем предсказывает продолжительность каждой фонемы в последовательности фонем.

Модель основной частоты предсказывает, озвучена ли фонема. Модель синтеза звука синтезирует звук, комбинируя выходные данные модели «графема-фонема», длительности фонемы и модели прогнозирования основной частоты.

Вот как эта модель выглядит по сравнению с другими моделями.

Deep Voice 2: нейронное преобразование текста в речь с помощью нескольких динамиков

Этот документ представляет собой вторую версию Deep Voice, разработанную лабораторией искусственного интеллекта Baidu Silicon Valley. Они представляют метод улучшения нейронного преобразования текста в речь с помощью низкоразмерных встраиваемых обучаемых динамиков для создания различных голосов из одной модели.

Модель основана на том же конвейере, что и DeepVoice 1. Однако она представляет собой значительное улучшение качества звука. Модель способна выучить сотни уникальных голосов менее чем за полчаса данных на говорящего.



Авторы также представляют нейронный вокодер на основе спектрограммы в аудио на основе WaveNet, который затем используется с Tacotron вместо генерации звука Griffin-Lim. Основное внимание в этой статье уделяется работе с несколькими ораторами с меньшим количеством данных от каждого оратора. Общая архитектура аналогична Deep Voice 1. Процесс обучения Deep Voice 2 изображен на рисунке ниже.

Основное различие между Deep Voice 2 и Deep Voice 1 заключается в разделении моделей длительности и частоты фонемы. Deep Voice 1 имеет единую модель для совместного прогнозирования длительности фонемы и частотного профиля; в Deep Voice 2 сначала предсказываются длительности фонем, а затем они используются в качестве входных данных для частотной модели.

Модель сегментации в Deep Voice 2 - это сверточно-рекуррентная архитектура с потерей временной классификации соединений (CTC), применяемой для классификации пар фонем. Основным изменением Deep Voice 2 является добавление пакетной нормализации и остаточных соединений в сверточных слоях. Его вокальная модель основана на архитектуре WaveNet.

Синтез речи от нескольких говорящих осуществляется путем дополнения каждой модели одним вектором встраивания динамиков низкого уровня для каждого говорящего. Распределение веса между динамиками достигается за счет сохранения параметров, зависящих от динамика, в векторе очень низкой размерности.

Начальные состояния рекуррентной нейронной сети (RNN) производятся с использованием встраивания динамиков. Равномерное распределение используется для случайной инициализации вложений динамиков и совместного обучения с использованием обратного распространения ошибки. Встраиваемые динамики встроены в несколько частей модели, чтобы гарантировать, что уникальная голосовая подпись каждого динамика учтена.

Давайте теперь посмотрим, как эта модель работает по сравнению с другими моделями.

Deep Voice 3: преобразование текста в речь с помощью обучения сверточной последовательности

В третьей итерации Deep Voice авторы представляют полностью сверточную нейронную систему преобразования текста в речь (TTS), основанную на внимании.



Авторы предлагают полностью сверточную архитектуру преобразования символа в спектрограмму, которая обеспечивает полностью параллельные вычисления. Архитектура - это основанная на внимании модель от последовательности к последовательности. Модель обучалась на наборе данных LibriSpeech ASR.

Предлагаемая архитектура способна преобразовывать текстовые особенности, такие как символы, фонемы и ударения, в различные параметры вокодера. Некоторые из них включают спектрограммы в мел-диапазоне, спектрограммы логарифмических величин в линейном масштабе, основную частоту, спектральную огибающую и параметры апериодичности. Эти параметры вокодера затем используются в качестве входных данных для модели синтеза звуковой волны.

Архитектура состоит из следующего:

  • Кодировщик - полностью сверточный кодировщик, преобразующий текстовые функции во внутреннее заученное представление.
  • Декодер - полностью сверточный причинный декодер, который декодирует выученные представления авторегрессивным способом.
  • Конвертер - полностью сверточная сеть постобработки, которая предсказывает окончательные параметры вокодера.

Для предварительной обработки текста символы ввода текста в верхнем регистре удаляются авторами, удаляются знаки препинания, каждое высказывание заканчивается точкой или вопросительным знаком, а пробелы заменяются специальным символом, указывающим длину паузы.

На рисунке ниже показано сравнение производительности этой модели с другими альтернативными моделями.

Parallel WaveNet: быстрый высокоточный синтез речи

Авторы этой статьи из Google. Они представляют метод, известный как вероятностная дистилляция, который обучает параллельную сеть прямого распространения из обученной сети WaveNet. Метод построен на сочетании лучших характеристик Обратных авторегрессионных потоков (IAF) и WaveNet. Эти функции представляют собой эффективное обучение WaveNet и эффективную выборку сетей IAF.



Для обучения авторы используют обученную WaveNet в качестве «учителя», а параллельный «ученик» WaveNet учится на этом. Здесь цель состоит в том, чтобы ученик соответствовал вероятности его собственных выборок в соответствии с распределением, полученным от учителя.

Авторы также предлагают дополнительные функции потерь, которые помогут студенту генерировать высококачественные аудиопотоки:

  • Потеря мощности - для обеспечения использования мощности в разных частотных диапазонах речи, как в человеческой речи.
  • Потеря восприятия - для этой потери авторы экспериментировали с потерей реконструкции признаков (евклидово расстояние между картами признаков в классификаторе) и потерей стиля (евклидово расстояние между матрицами Грама). Они обнаружили, что потеря стиля дает лучшие результаты.
  • Контрастные потери, которые ухудшают формы сигналов, которые имеют высокую вероятность независимо от вектора кондиционирования.

На рисунке ниже показаны характеристики этой модели.

Клонирование нейронного голоса с несколькими образцами

Авторы этой статьи из Baidu Research. Они вводят систему нейронного клонирования голоса, которая учится синтезировать голос человека из нескольких аудиосэмплов.

Используются два подхода: адаптация динамика и кодирование динамика. Адаптация динамика работает путем точной настройки генеративной модели с несколькими динамиками, в то время как кодирование динамика работает путем обучения отдельной модели для непосредственного вывода нового встраивания динамика, которое применяется к генеративной модели с несколькими динамиками.



В этой статье Deep Voice 3 используется в качестве основы для модели с несколькими динамиками. Для клонирования голоса авторы извлекают характеристики говорящего из говорящего и генерируют звук при условии, что текст из данного говорящего доступен.

Метрики производительности, используемые для сгенерированного звука, - это естественность речи и сходство говорящих. Они предлагают метод кодирования динамика, который напрямую оценивает вложения говорящего из аудиосэмплов невидимого говорящего.

Ниже показано, как работает клонирование голоса.

VoiceLoop: настройка и синтез голоса с помощью фонологической петли

Авторы этой статьи из Facebook AI Research. Они вводят технологию нейронного преобразования текста в речь (TTS), которая может преобразовывать текст в речь из голосов, которые были взяты из дикой природы.



VoiceLoop основан на модели рабочей памяти, известной как фонологическая петля, которая удерживает словесную информацию в течение короткого времени. Он состоит из фонологического хранилища, которое постоянно обновляется, и репетиционного процесса, который поддерживает более долгосрочные репрезентации в фонологическом хранилище.

VoiceLoop создает фонологическое хранилище, реализуя буфер сдвига в виде матрицы. Предложения представлены в виде списка фонем. Затем из каждой фонемы декодируется короткий вектор. Текущий вектор контекста генерируется путем взвешивания кодировки фонем и их суммирования в каждый момент времени.

Некоторые из свойств, которые отличают VoiceLoop, включают использование буфера памяти вместо обычных RNN, совместное использование памяти между всеми процессами и использование неглубоких, полностью связанных сетей для всех вычислений.

Ниже показано, как эта модель работает по сравнению с другими альтернативами.

Натуральный синтез TTS путем кондиционирования волновой сети на основе предсказаний спектрограммы Мела

Авторы этой статьи - представители Google и Калифорнийского университета в Беркли. Они представляют Tacotron 2, архитектуру нейронной сети для синтеза речи из текста.



Он состоит из повторяющейся сети предсказания признаков от последовательности к последовательности, которая отображает вложения символов в спектрограммы мелкого масштаба. Затем следует модифицированная модель WaveNet. Эта модель действует как вокодер, который синтезирует волны временной области из спектрограмм. Модель получила средний балл мнения (MOS) 4,53.

Эта модель была построена путем объединения лучших функций Tacotron и WaveNet. Ниже приведены характеристики модели по сравнению с альтернативными моделями.

Заключение

Теперь мы должны быть в курсе некоторых из наиболее распространенных - и нескольких совсем недавних - методов выполнения синтеза речи в различных контекстах.

В упомянутых выше статьях / рефератах также есть ссылки на их реализации кода. Мы будем рады увидеть результаты, которые вы получите после их тестирования.



Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимо от редакции, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее создавать лучшие модели машинного обучения.