Сбор и разметка данных для машинного обучения
Санкт-Петербург, весна 2021
Описание
Курс проходит полностью онлайн
Ссылка на Zoom https://yandex.zoom.us/j/8319866658
Семинары проходят онлайн каждый четверг с 18.30 до 20.00. Лекции в записи. До семинара необходимо просмотреть запись лекции, то есть к каждому семинару смотрим лекцию по соответствующей теме.
Описание
В настоящее время практически любая содержательная задача по анализу данных или ML требует сбора размеченных данных, которые, как правило, нужны в большом количестве и требуют привлечения ручного труда. Работа с краудом является одним из востребованных и ключевых навыков, которыми необходимо уметь пользоваться специалистам по анализу данных, если они хотят расти и решать все более крупные и амбициозные задачи.
Краудсорсинг применяется не только на стадии анализа и при построении ML-моделей, но также в замкнутых производственных и продуктовых процессах (парадигма human-in-the-loop). Наиболее яркими продуктами Яндекса, в боевых процессах которых используется "крауд'', являются: голосовой помощник Алиса, Поиск, Яндекс.Переводчик, Яндекс.Драйв, Яндекс.Справочник, Яндекс.Картинки и др.
Специалисты по краудсорсингу уже остро востребованы как на российском, так и на зарубежном рынке. Из нашего опыты выпускники нашего курса востребованы как в Яндексе, так и в других российских компаниях, таких как Ozon, Авито, Сбер. На международном рынке Google, Facebook, Huawei, Tesla, Amazon, Netflix, Microsoft тоже постоянно решают подобные задачи, требующие знаний методов краудсорсинга.
Наши преподаватели — специалисты из разных сервисов Яндекса, которые регулярно используют краудсорсинг для решения таких задач как определение релевантности поисковой выдачи, тестирования и распознавание речи или объектов на изображениях.
Результаты обучения на курсе
Студенты, прошедшие данный образовательный курс, будут обладать глубоким пониманием и систематизированной картиной технологий краудсорсинга, что должно повысить эффективность работы продуктовых процессов. Будет очень интересно!
Пререквизиты курса
Требуются базовые навыки программирования на Python. Базовые знания html, js и css будут плюсом.
Домашние задания
Список всех домашних заданий и проверяющих, а также баллов за каждое ДЗ
Критерии оценивания
10 домашних заданий, которые в сумме составляют 100 баллов
Каждая домашка проверяется семинаристом, который ведет соответсвующий семинар, и разбалловка каждого задания определяется семинаристом.
Отлично: 80-100 Хорошо: 65-79 Зачёт: 50-64
Дедлайн: 14 дней
Можно сдать ДЗ в течение недели после дедлайна, потеряв 3 балла. Можно сдать по желанию ДЗ по истечении 1 недели после дедлайна с потерей 50% баллов от полученной оценки.
Бюджет на домашки
На создание и запуск проектов в Толоке вам будет выделен бюджет. На каждую домашку выделено $х, бюджет устанавливает семинарист. Если студент превысил бюджет, то может запросить еще, но за каждый доллар получит по -1 баллу.(Совет от души: лучше экономить и копить бюджет на всякий случай)
Чтобы получить аккаунт в Толоке, на который мы будем класть бюджет для каждого ДЗ, нужно написать ФИО + ВУЗ (ИТМО, Иннополис, CSC, JetBrains, Сколтех) на рассылку shad-accounts@yandex-team.ru
(!) Если есть вопросы по конкретной домашке или лекции, пингуйте соответствующего преподавателя
Чат для студентов курса
@polinsmi - куратор курса, все организационные вопросы можно писать мне
Преподаватели
Список лекций
Данная лекция разделена на 2 части, одна - про интерфейс, вторая - про инструкцию, в дополнительных материалах можно найти слайды к лекции про инструкцию. (!) Семинар посвящен именно интерфейсу
Слайды лекции: https://yadi.sk/i/5gtcXL6R9ziWUQ