Сбор и разметка данных для машинного обучения

Санкт-Петербург, весна 2021

Описание

Курс проходит полностью онлайн

Ссылка на Zoom https://yandex.zoom.us/j/8319866658

Семинары проходят онлайн каждый четверг с 18.30 до 20.00. Лекции в записи. До семинара необходимо просмотреть запись лекции, то есть к каждому семинару смотрим лекцию по соответствующей теме.

Описание

В настоящее время практически любая содержательная задача по анализу данных или ML требует сбора размеченных данных, которые, как правило, нужны в большом количестве и требуют привлечения ручного труда. Работа с краудом является одним из востребованных и ключевых навыков, которыми необходимо уметь пользоваться специалистам по анализу данных, если они хотят расти и решать все более крупные и амбициозные задачи.

Краудсорсинг применяется не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Наиболее яркими продуктами Яндекса, в боевых процессах которых используется "крауд'', являются: голосовой помощник Алиса, Поиск, Яндекс.Переводчик, Яндекс.Драйв, Яндекс.Справочник, Яндекс.Картинки и др.

Специалисты по краудсорсингу уже остро востребованы как на российском, так и на зарубежном рынке. Из нашего опыты выпускники нашего курса востребованы как в Яндексе, так и в других российских компаниях, таких как Ozon, Авито, Сбер. На международном рынке Google, Facebook, Huawei, Tesla, Amazon, Netflix, Microsoft тоже постоянно решают подобные задачи, требующие знаний методов краудсорсинга.

Наши преподаватели — специалисты из разных сервисов Яндекса, которые регулярно используют краудсорсинг для решения таких задач как определение релевантности поисковой выдачи, тестирования и распознавание речи или объектов на изображениях.

Результаты обучения на курсе

Студенты, прошедшие данный образовательный курс, будут обладать глубоким пониманием и систематизированной картиной технологий краудсорсинга, что должно повысить эффективность работы продуктовых процессов. Будет очень интересно!

Пререквизиты курса

Требуются базовые навыки программирования на Python. Базовые знания html, js и css будут плюсом.

Домашние задания

Список всех домашних заданий и проверяющих, а также баллов за каждое ДЗ

Критерии оценивания

10 домашних заданий, которые в сумме составляют 100 баллов

Каждая домашка проверяется семинаристом, который ведет соответсвующий семинар, и разбалловка каждого задания определяется семинаристом.

Отлично: 80-100 Хорошо: 65-79 Зачёт: 50-64

Дедлайн: 14 дней

Можно сдать ДЗ в течение недели после дедлайна, потеряв 3 балла. Можно сдать по желанию ДЗ по истечении 1 недели после дедлайна с потерей 50% баллов от полученной оценки.

Бюджет на домашки

На создание и запуск проектов в Толоке вам будет выделен бюджет. На каждую домашку выделено $х, бюджет устанавливает семинарист. Если студент превысил бюджет, то может запросить еще, но за каждый доллар получит по -1 баллу.(Совет от души: лучше экономить и копить бюджет на всякий случай)

Чтобы получить аккаунт в Толоке, на который мы будем класть бюджет для каждого ДЗ, нужно написать ФИО + ВУЗ (ИТМО, Иннополис, CSC, JetBrains, Сколтех) на рассылку shad-accounts@yandex-team.ru

(!) Если есть вопросы по конкретной домашке или лекции, пингуйте соответствующего преподавателя

Чат для студентов курса

https://t.me/csccrowd2021

@polinsmi - куратор курса, все организационные вопросы можно писать мне

Преподаватели

Список лекций

Лекция №2, часть 1. Интерфейс задания

Данная лекция разделена на 2 части, одна - про интерфейс, вторая - про инструкцию, в дополнительных материалах можно найти слайды к лекции про инструкцию. (!) Семинар посвящен именно интерфейсу