» » Китайцы научили нейросеть превращать речь в пение
Китайцы научили нейросеть превращать речь в пение 08:38 Понедельник 0 66
6-01-2020, 08:38

Китайцы научили нейросеть превращать речь в пение


Китайцы научили нейросеть превращать речь в пение

Китайские разработчики создали алгоритм, способный синтезировать запись с пением человека на основе записи с его обычной речью, или же выполнять обратную задачу и синтезировать речь на основе пения.

В последние годы развитие нейросетевых алгоритмов для синтеза речи, таких как WaveNet, позволило создать системы, которые достаточно сложно отличить от реальных людей. Например, Google в 2018 году показала голосового помощника для бронирования мест, который умеет не только реалистично говорить, но и вставлять слова, придающие речи правдоподобность, например, «эмм». В результате компании пришлось также научить алгоритм предупреждать в начале разговора, что он не является человеком.

Как и в случае с другими нейросетевыми алгоритмами, успех систем синтеза речи во многом связан не с их архитектурой, а с большим объемом доступных данных для обучения. Создание системы синтеза пения представляет собой похожую на первый взгляд задачу, но на самом деле гораздо сложнее из-за значительно меньшей доступности данных. Многие разработчики систем генерации пения в последнее время шли по пути уменьшения объема необходимых образцов пения конкретного человека для обучения алгоритма, а теперь группа китайских исследователей под руководством Дуна Юя (Dong Yu) из компании Tencent создала систему, которая способна создавать реалистичную аудиозапись с пением, получая на вход только образцы речи.

Алгоритм основан на предыдущей разработке Tencent — нейросети DurIAN, предназначенной для синтеза реалистичных видеороликов с говорящим ведущим на основе текста. Перед DuarIAN в новом алгоритме установлен блок распознавания речи, который создает на основе входящей аудиозаписи фонемы с указанием их продолжительности, а также основные частоты. Эти данные попадают на блок, состоящий из кодировщика и декодировщика, который формирует мел-спектрограмму, которую отдельная нейросеть превращает в аудиозапись. Алгоритм может работать в обе стороны, конвертируя речь в пение и наоборот.

Общая схема алгоритма

Авторы обучили алгоритм на двух собственных датасетах, состоящих из полутора часов пения и 28 часов речи. После обучения разработчики проверили эффективность алгоритма на 14 добровольцах, которые оценивали реалистичность синтезированного пения и похожесть тембра на исходную запись. В результате один из вариантов алгоритма набрал 3,8 балла по реалистичности и 3,65 по похожести. На сайте авторов опубликованы образцы работы нейросети.

Источник:vk.cc/3JxCV8



Loading...

Loading...

Оставить комментарий

    • bowtiesmilelaughingblushsmileyrelaxedsmirk
      heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
      winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
      worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
      expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
      disappointedconfoundedfearfulcold_sweatperseverecrysob
      joyastonishedscreamtired_faceangryragetriumph
      sleepyyummasksunglassesdizzy_faceimpsmiling_imp
      neutral_faceno_mouthinnocent
Кликните на изображение чтобы обновить код, если он неразборчив
NASA займется сборкой космических аппаратов прямо на орбите Земли 00:10 Среда 0 105 NASA займется сборкой космических аппаратов прямо на орбите Земли Постоянные читатели нашего сайта не понаслышке знают, что человечество всерьез намерено осваивать далекие планеты. В принципе, именно поэтому аэрокосмическая компания SpaceX разрабатывает космический

х