Проекты

Нейронные деревья
Куратор - Дмитрий Колодезев

Библиотека для генерации нейронной сети по обученному ансамблю деревьев.

Нейронные сети редко используют для табличных данных, т.к. их сложнее обучать, чем ансамбли деревьев. Но у нейронных сетей есть важные преимущества:

  • можно дообучать
  • можно делать перенос обучения (transferlearning)
  • можно переиспользовать эмбеддинги в других моделях
  • можно распараллеливать инференс (предсказания)
  • естественная поддержка GPU

В рамках проекта предлагается разработать открытую библиотеку для конвертации обученных моделей на основе ансамблей деревьев (случайный лес, градиентный бустинг) в нейронную сеть.

Семантический анализ речи на Трансформерах
Куратор - Иван Бондаренко

Задача автоматического распознавания устной речи, несмотря на длинную историю и уже существующие решения, по-прежнему актуальна. Современные подходы к распознаванию речи достигают весьма высокого качества только в специальных условиях, например, в условиях так называемой reading speech, характерной для аудиокниг (типичный пример - это корпус LibriSpeech [1], на котором едва ли не все исследователи любят тестировать свои алгоритмы распознавания речи). Смена жанра и лексики разговора может критично повлиять на качество распознавания. Что же делать? А вот что.

В настоящее время существует два основных подхода к построению систем распознавания речи: модульный (компонентный) и сквозной (end-to-end). Типичным представителем модульного подхода является Kaldi [2], где явно выделены акустико-фонетический и лингвистический уровни. В рамках “сквозного” подхода были созданы такие глубокие нейросети для распознавания речи, как DeepSpeech, Wav2Letter, Jasper, QuartzNet и другие.

Для решения задачи “сквозного” распознавания речи популярность набирают методы глубокого обучения на основе механизма внимания, а именно алгоритм Wave2Vec2, впервые предложенный исследователями из компании Facebook [3] и имеющий реализацию в виде открытого кода и обученных моделей, в том числе многоязычной и даже специализированной для русского языка [4]. Подобного рода “сквозные” методы глубокого обучения кажутся более перспективными, чем модульный подход, принятый в упомянутом выше Kaldi, и не требуют больших размеченных корпусов речевых данных для своей адаптации под конкретную задачу, лексику и акустические условия за счёт способности к так называемому переносу обучения [5]. Кроме того, модели на базе модульного подхода, реализованного в Kaldi, демонстрируют линейный рост вычислительной сложности с увеличением размера словаря, а вычислительная сложность “сквозных” методов никак не зависит от размера словаря, а определяется лишь архитектурой глубокой нейронной сети. К сожалению, несмотря на существование обученных моделей распознавания русской речи на основе алгоритма Wave2Vec, эти модели оставляют желать лучшего при распознавании любой речи, кроме речи дикторов аудиокниг.

Поэтому для получения эффективной и робастной модели распознавания русской речи необходимо дообучить Wave2Vec 2.0 с помощью метода иерархического многозадачного обучения, который, с одной стороны, вносит эффективное индуктивное смещение [6, 7] в процесс обучения глубокой нейронной сети за счёт учёта естественной иерархии лингвистических задач при восприятии речи (фонетика-лексика-морфология-синтаксис-семантика), а с другой стороны, решает проблему затухания градиента (наличие такой проблемы мешает эффективному обучению глубоких нейросетей - см., напр., [8]). В качестве речевых корпусов для обучения и тестирования модели распознавания речи предполагается использовать речевой корпус размеченной русской речи SberDevices Golos [9], а также звуковой корпус различных неречевых акустических событий AudioSet, собранный компанией Google [10]. Лексический уровень разметки речи задан непосредственно в корпусе SberDevices Golos в виде точных текстовых расшифровок каждого речевого сигнала. Фонетический уровень разметки предполагается моделировать на основе авторского метода генерации фонетических транскрипций русских текстов [11]. Уровень же морфологической, синтаксической и семантической разметки логичнее всего реализовать с помощью автоматического определения частей речи, синтаксических тегов и именованных сущностей для текстовой расшифровки каждого речевого сигнала. Такую морфо-синтактико-семантическую разметку можно сгенерировать автоматически с использованием открытой системы морфо-синтаксического анализа UDPipe [12] и открытой авторской системы распознавания именованных сущностей DeepNER [13]. Основная цель подобного иерархического многозадачного обучения - это достижение высокого качества на лексическом уровне (то есть качественного преобразования речи в текст), а другие уровни - от фонетического до семантического - являются источниками вспомогательных задач, тем самым эффективно регуляризируя глубокую нейронную сеть и вводя индуктивное смещение в процесс её обучения.

  1. Vassil Panayotov, Guoguo Chen, Daniel Povey and Sanjeev Khudanpur. LibriSpeech: an ASR corpus based on public domain audio books // Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2015
  2. Daniel  Povey et al. The Kaldi speech recognition toolkit // Proceedings of the IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, 2011.
  3. Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, and Michael Auli. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations // ArXiv abs/2006.11477 (2020)
  4. Alexei Baevski, Alexis Conneau, and Michael Auli. facebook/wav2vec2-large-xlsr-53: Hugging Face // URL: https://huggingface.co/facebook/wav2vec2-large-xlsr-53 (дата обращения:21.11.2021)
  5. L. Y. Pratt. Discriminability-based transfer between neural networks // Proceedings of the NIPS Conference: Advances in Neural Information Processing Systems, 1993. pp. 204–211.
  6. R. Caruana. Multitask learning // Machine Learning, vol. 28, pp. 41–75, 1997.
  7. Victor Sanh, Thomas Wolf, and Sebastian Ruder. A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks // Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence AAAI 2019, 2019.
  8. S.Hochreiter, Y.Bengio, P.Frasconi, and J.Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies // In Kremer, S. C.; Kolen, J. F. (eds.). A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press. 2001.
  9. Nikolay Karpov, Alexander Denisenko, and Fedor Minkin. Golos: Russian Dataset for Speech Research // ArXiv: 2106.10161 (2021)
  10. Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence R. Channing Moore, Manoj Plakal, and Marvin Ritter. Audio Set: An ontology and human-labeled dataset for audio events // Proceedings of  The 42nd IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP2017, March 2017.
  11. O. S. Yakovenko, I. Yu. Bondarenko, M. N. Borovikova, and D. I. Vodolazsky. Algorithms for accentuation and phonemic transcription of Russian texts in speech recognition systems // Proceedings of the 20th International Conference in Speech and Computer SPECOM 2018, Springer-Verlag, 2018, pp. 768-777.
  12. Milan Straka, and Jana Straková. Tokenizing, POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe // Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, 2017, Association for Computational Linguistics, pp. 88-99.
  13. Ivan Bondarenko. DeepNER: named entity recognizer based on ELMo or BERT as feature extractor and CRF as final classifier // URL: https://github.com/bond005/deep_ner (дата обращения: 21.11.2021).

Универсальная нейросетевая модель понимания текстов на естественном языке
Куратор - Иван Бондаренко

Вся совокупность задач анализа текста - морфо-синтаксический анализ, распознавание именованных сущностей, анализ тональности, тематическая сегментация и тому подобное - может быть реализована однотипными архитектурами глубоких нейронных сетей типа BERT [1, 2]. Но применение последовательности из нескольких больших нейросетей является весьма вычислительно затратным - как в смысле быстродействия, так и в смысле расходов памяти. Соответственно, возникает важная задача, обладающая не только практической значимостью, но и научной новизной - создание модели глубокого обучения с механизмом внимания, способной одновременно решать множество задач понимания текста на естественном языке за счёт “массового” многозадачного обучения. Попытки подобного рода предпринимались и ранее [3, 4], но, во-первых, они были ограничены неполнотой разметки обучающей выборки на основе структуры гиперссылок англоязычной Википедии, а во-вторых, ни одна из этих попыток не включала в себя создание глубоких лингвистических моделей для русского языка. В нашем же подходе предполагается многозадачное обучение глубокой нейросети на основе как большого объединённого текстового корпуса с частично ручной, частично синтетической разметкой на основе объединения ряда существующих размеченных корпусов для русского языка в проекте Russian SuperGLUE [5], так и на основе неразмеченных корпусов с полностью синтетической разметкой путём выборки из Common Crawl [6]. И здесь многозадачное обучение, в отличие от применения этого метода к дообучению модели преобразования речи в текст, нужно не только для регуляризации процесса самого обучения, а ещё и в качестве средства вычислительной оптимизации в режиме применения обученных моделей (вместо последовательности глубоких нейронных сетей используется одна нейросетевая система с несколькими иерархически организованными выходами).

  1. J. Devlin, M. Chang, K. Lee, and K. Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long and Short Papers), 2019, pp. 4171-4186.
  2. Matthew E. Peters, Sebastian Ruder, and Noah A. Smith. To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks // Proceedings of the 4th Workshop on Representation Learning for NLP, 2019.
  3. Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, and Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 2019.
  4. Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, and Haifeng Wang. ERNIE 2.0: A Continual Pretraining Framework for Language Understanding // Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020.
  5. Tatiana Shavrina, Alena Fenogenova, Anton Emelyanov, Denis Shevelev, Ekaterina Artemova, Valentin Malykh, Vladislav Mikhailov, Maria Tikhonova, Andrey Chertok, and Andrey Evlampiev. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // ArXiv: 2010.15925, 2020.
  6. Common Crawl // URL: http://commoncrawl.org (дата обращения:17.02.2021).