Машинное обучение, часть 1

Санкт-Петербург, осень 2016

Описание

Это первая половина годового курса.

Цель курса — сформировать целостное представление о методах машинного обучения, об ограничениях этих методов и о задачах, которые можно решать с их помощью. Курс предназначен для широкого круга слушателей.

Для понимания излагаемого материала достаточно знания статистики и линейной алгебры в объеме первых двух курсов математического факультета университета.

Курс построен таким образом, чтобы слушатель, который ранее не сталкивался с машинным обучением, мог понять большую часть курса и научиться применять излагаемые методы. При этом даже самый опытный слушатель в этом курсе найдёт для себя что-то новое.

Для более эффективного понимания курса в течение семестра будут даны несколько домашних заданий, связанных с практическим применением методов, о которых рассказывается в лекциях.

По окончании семестра будет проведён устный экзамен. В итоговой оценке за семестр также будет учитываться качество выполнения домашних заданий.

Содержание курса

Модуль 1 (Введение)

  1. Обзор методов машинного обучения. Отличия от смежных областей
  2. Разбор эксперимента «предсказание оценки студента»
  3. Практическая оценка качества обучения

Модуль 2 (Классы решающих функций)

  1. Ближайшие соседи
  2. Линейные модели
  3. Деревья решений
  4. Нейронные сети
  5. Метод опорных векторов (SVM)

Модуль 3 (Ансамбли решающих функций)

  1. Леса
  2. Ансамбли
  3. Gradient Bossting Decision Tree

Модули 4-6 рассматриваются в продолжении курса весной.

Модуль 4 (Работа с данными)

  1. Сэмплирование данных
  2. Уменьшение размерности
  3. Кластеризация
  4. Feature extraction
  5. Обучение метрики

Модуль 5 (Обучение на сырых данных)

  1. Коллаборативная фильтрация
  2. Обучение на последовательностях, HMM
  3. Глубокое обучение

Модуль 6 (Создание методов обучения)

  1. Целевые функции
  2. Вероятностные модели
  3. EM, Gibbs sampling, MCMC
  4. Теоретическая оценка качества обучения
  5. Регуляризация, LASSO

Для слушателей курса будет полезна книга The Elements of Statistical Learning: Data Mining, Inference, and Prediction.

Преподаватели

Список лекций

Один эксперимент

На этой лекции мы будем разбирать каким образом можно предсказывать оценку студента на экзамене.

Оценка качества

В этой лекции будут рассказано как можно и нужно оценивать качество машинного обучения.

Оценка качества II

Продолжим разговор про оценку качества машинного обучения.

Instance based learning

В этой лекции будет рассказано о самом работающем методе в машинном обучении. О методе ближайших соседей.

Линейные модели

На этой лекции будет рассказана вся правда про линейные модели.

Линейные модели II

На предыдущей лекции про линейные модели было рассказано только про постановку самой задачи, её простое решение и свойствах этого решения по теореме Гаусса-Маркова. В этой лекции будут рассказаны более эффективные линейные модели для задач классификации.

Деревья решений

В этой лекции будут рассмотрены базовые деревья решений.

Деревья решений II

Продолжаем разговор о деревьях решений.

Нейронные сети

Поговорим про нейронные сети — математические модели, построенные по принципу организации и функционирования биологических нейронных сетей.

Нейронные сети II

Продолжаем рассказ про нейронные сети.

SVM

Расскажем про многолетнего фаворита методов машинного обучения.

Экзамен 1

Первый день сдачи экзамена. Аудитория ещё уточняется.

Экзамен 2

Второй день сдачи экзамена.

Экзамен 3

День для пересдачи плюс смелых людей, которым не нужна пересдача.