Система улучшения качества речи в реальном времени на основе нейросети. Прием и выдача звука через loopback driver. Работа с zoom/discord.
Микс из чистого сигнала с шумом разного типа (стационарный, периодический, импульсный)
Чистые данные:
Шум:
Рассматривались 3 архитектуры:
Для отслеживания экспериментов был выбран CleaML в связке с Tensorboard. Дебаг вывод аудио и спектограмм. Реализация моделей выполнена на Pytorch, цикл обучения на Pytorch Lightning, а метрики с помощью TorchMetrics.
Работа в реальном времени возможна для cli и gui. В web версии выводится очищенная wave-форма и дополнительно траскриб речи.
Cookies help us deliver our services. By using our services, you agree to our use of cookies.