Система улучшения качества речи в реальном времени на основе нейросети. Прием и выдача звука через loopback driver. Работа с zoom/discord.
Микс из чистого сигнала с шумом разного типа (стационарный, периодический, импульсный)
Чистые данные:
Шум:
Рассматривались 3 архитектуры:
Для отслеживания экспериментов был выбран CleaML в связке с Tensorboard. Дебаг вывод аудио и спектограмм. Реализация моделей выполнена на Pytorch, цикл обучения на Pytorch Lightning, а метрики с помощью TorchMetrics.
Работа в реальном времени возможна для cli и gui. В web версии выводится очищенная wave-форма и дополнительно траскриб речи.
Our website uses cookies, including web analytics services. By using the website, you consent to the processing of personal data using cookies. You can find out more about the processing of personal data in the Privacy policy