Ended 10 months ago
250 participants
196 submissions

My First Data Project 2: Презентация задачи и выбор датасета

Вы познакомитесь с вариантами задач, определитесь с задачей на курс и соберете датасет.

Знакомство с задачей. 

Приветствую в AI Talent Hub – онлайн-комьюнити специалистов по машинному обучению. 
Здорово, что ты присоединился к нам! 
Мы готовим Middle ML-инженеров и AI-специалистов в рабочем процессе ИТ компаний. 

В основе нашего образовательного процесса – проекты реальных ИТ компаний, а также  индивидуальная траектория развития каждого студента  посредством выборных дисциплин от практикующих IT-экспертов. Такое перевернутое образование помогает студенту решать реальные задачи бизнеса в проектных треках с первого дня обучения.

Ближайшие 12 недель ты тоже попробуешь такой формат подготовки. Тебя ждут реальные задачи, менторская поддержка.  И главным твоим достижением в этом приключении будет защита своего проекта и поступление в онлайн-магистратуру ИТМО по направлению «Искусственный интеллект». 

Предлагаю тебе выбрать одну из шести задач, на основе которой ты создашь проект и представишь его. Помни, что данные к некоторым задачам не предоставляются, тем интереснее!

Ну, что ж, пора начинать. 

Задача №1

Сегодня цифровой мир стал не только основным инструментом в работе, но и важным источником развлечений, отдыха и уединения. Все больше и больше людей используют сервисы цифровой дистрибуции для получения контента. Steam, онлайн кинотеатры, сервисы стриминга музыки прочно вошли в нашу жизнь. Но такая доступность затаила в себе и большую проблему. Проблему выбора. Мы заходим в каталоги и порой тратим больше времени на выбор, чем на само потребление и получения удовольствия.

Мы предлагаем тебе сделать сервис, который помогал бы жителю мегаполиса скрасить свой вечер. Наш герой живет в очень плотном графике, который синхронизирован с календарем в смартфоне и ноутбуке, но иногда хочет отвлечься от ритма большого города. У него могут быть свои предпочтения в жанрах, разное настроение в течение дня или немного времени на отдых -  всего 10-20 минут. Но при помощи вашего сервиса он сможет получить качественные рекомендации как провести вечер. Вперед.

Задача №2 

Как мы все понимаем друг друга? Очевидно, в основном с помощью речи и письма. Но есть еще дополнительный канал коммуникации – эмоции, которые человек проявляет через интонацию, выражение лица, жесты.

Мы предлагаем тебе разработать сервис, который будет помогать анализировать и распознавать эмоции человека. Здесь большой простор для творчества: игровая индустрия, мониторинг качества обслуживания клиентов в call-центрах, удаленная работа и выявление выгорания сотрудников… Список ограничен только твоей фантазией! 

При этом важно, чтобы этот сервис был полезен для бизнеса. Для какого именно –  решать тебе!

Используй любые источники данных, инструменты и метрики качества. Удачи!

Доп. материал:

Задача №3

Сегодня все сенсорные экраны поддерживают мультитач и жесты. Это настолько привычно, что не замечаешь как меняешь окно приложения, проводя тремя пальцами по трекпаду. Но это довольно простой жест. Что насчет более сложных?

Мы предлагаем тебе разработать сервис, который будет управляться жестами пользователя.. Это может быть полотно для рисования мышкой, камера для распознавания кисти руки или что угодно иное, на что хватит фантазии.

Важно, чтобы сервис мог распознавать 10 и более жестов, которым модель заранее обучена. Также необходимо придумать как извлечь коммерческую пользу из такого сервиса.

Важный момент: тебе предстоит найти или создать самостоятельно данные для обучения своей модели

Задача №4 

Пршквт!
Плохо слышпм! Пввтори?

Теее преддвгается разработать сервис, удаляющий шум из аудиозаписи. Польза задачи очевидна, а собрать данные очень просто - наложить шум на хорошие записи. Кажется, что всё очень просто… 

Такую технологию легко продемонстрировать. Достаточно записать видео своего разговора в месте с любым шумом. Но мы хотим увидеть веб-сервис, где можно записать аудио с микрофона устройства и получить её очищенный вариант.

На сегодняшний день существуют разные технологии обработки звука нейронными сетями. Мы хотим, чтобы ты разработал свою архитектуру, а не применил существующую. Что ж, удачи!

Кннец свфзи

Задача №5 “Био1 медицина”

Доказательная персонализированная медицина – одна из очень активно развивающихся областей. Мы предлагаем познакомиться с этой областью, и создать на основание публичных данных сервис, помогающий оценивать заболевания по симптомам и, возможно, даже учитывать генетические данные. Один из датасетов будет получен в результате лонгитюдных исследований с кластерами заболеваний и их временными отношениями. Сейчас нет продуктов использующих эти данные. Задача состоит в разработке прототипа продукта на основании этих данных с возможностью привнесения других публичных данных.

Мы предоставим список датасетов, какие использовать – решать тебе.

Задачей №6 “Био2 геномика”

Мы очень многое узнали о человеке через использование небольшого количества модельных животных. Сейчас у нас уже есть геномы более 500 млекопитающих, и, более того, для каждого из 20000 генов человека были получены варианты в этих 500 геномах. 

Мы предлагаем попробовать себя в области работы с данными сравнительной геномики для поиска перспективных для биотеха генов и белков. Или даже автоматизировать поиск, создав свой автоматический сервис для решения этой задачи, или даже использовать такие модели как AlphaFold и BERT для визуализации и поиска важных мотивов внутри найденных моделей. 

Или еще больше! Генерации новых белков на основе уже имеющихся с использованием генеративных нейронных сетей. 

Хочешь написать свой Midjourney для генов и белков?

Задача №7 “Химия и искусственный интеллект”

Органическая химия - очень сложная штука, особенно когда дело касается механизмов реакций. Каждый новый механизм реакции – это публикация в журнале с IF > 15. Но проблема в том что моделирование таких процессов очень сложно, а экспериментальное доказательство – совсем другой уровень тяжести.  

При этом, количество уникальных реакций с известными механизмами и переходными состояниями так и провоцирует на data-driven подход. Погрузись в самые глубины органической химии и открой новые механизмы, которые представляют собой не только огромный фундаментальный интерес, но и откроют новые горизонты в получении сложных лекарственных молекул. Система, способная предположить переходные состояния заданной реакции, совершит настоящую революцию в области фундаментальной и прикладной химии. 

Как быть с тем что переходных состояний всегда разное количество? Какие параметры подойдут для описания переходных состояний, которые априори нестабильны и сильно отличаются от привычных нам органических молекул? Какая архитектура вообще подойдет под такую нетривиальную задачу? В ответах на эти вопросы сокрыт ключ к решению. Удачи!

Задача №8

Создание качественного уникального контента - ключ к успеху многих медиакомпаний. Сегодня часть рабочего времени авторов отводится на переписывание уже готовых материалов, с целью повышения их уникальности и возможности повторной публикации. Кажется, что такую задачу вполне можно переложить на нейросети.

Предлагаем тебе разработать сервис, помогающий авторам с переписыванием текстов в определенном стиле. Например, для одного текста можно сгенерировать научно-популярный рерайт для рубрики "Наука и техника" в газете, или академический рерайт для публикации в научном журнале.
Важный момент: необходимо разработать свое решение на основе open-source моделей, без ChatGPT.
Удачи!

Задача №9

Мы уже привыкли, что нейросети, машинное обучение и искусственный интеллект плотно зашли в современную жизнь и активно меняет целые направления науки и техники. Однако, для создания качественной модели с хорошей степенью предсказания необходимо наличие огромного количества данных для обучения. Мы же столкнемся с ситуацией, когда экспериментальных данных очень немного, а вот модель процесса нужна прямо позарез. Причем не абы какая, а обладающая хорошей точностью и воспроизводимостью. Погрузись в метод по синтезу нелинейной модели на основе малых данных, который так активно применяют материаловеды и, которые наверняка и не подозревают, что его можно использовать значительно шире. Научись создавать модели на данных, которые поставят в тупик даже заядлого дата-сайнтиста.

Мы предоставим несколько датасетов из разных экспериментов, а какой из них использовать – решать уже тебе.
Датасет к задаче

P.S.: В 1 модуле тебе предстоит: выбрать 1 из 9 вариантов задач, найти и просмотреть датасет к ней. 
Вступай в наш чат в телеграме (ссылка на чат была в письме после регистрации) и переходи в раздел по своей задаче для общения с участниками.

Cookies help us deliver our services. By using our services, you agree to our use of cookies.