Анализ данных на Python в примерах и задачах. Часть 1
Санкт-Петербург / весна 2019, посмотреть все семестры

Примерная программа курса

1) Описательные статистики и визуализация данных

2) Кластерный анализ

  • Разбить группу объектов на подгруппы.
  • Пример задачи: сегментация сайтов, определение схожих сайтов.
  • Изучаемые методы. Иерархический кластерный анализ, метод к-средних, Метод к-медоидов.

3) Линейный регрессионный анализ

  • Пример задачи: оценить, насколько упали цены на подержанные автомобили после увеличения таможенных пошлин.
  • Изучаемые методы. Отбор переменных, коллинеарность, влиятельные наблюдения, анализ остатков.

4) Обобщения линейной регрессии

  • Непараметрическая регрессия (ядерное сглаживание).
  • Логистическая регрессия.

5) Machine Learning (Распознавание образов)

  • Пример задачи: распознать пол и возраст у каждого посетителя сайта.
  • Изучаемые методы. Метод k-го ближайшего соседа Деревья классификации (CART). Случайные леса. Gradient boosting machine.

Оценка за курс

Оценка за курс выставляется по результатам выполнения лабораторных работ. Запланировано 8 работ. Оценка выставляется по следующему правилу. Отлично - сданы все работы. Хорошо - сданы все работы, кроме одной. Удовлетворительно - сданы все работы, кроме двух. Каждый раз Вам будет предоставлен набор данных и вопрос про эти данные. Надо ответить на вопрос, используя методы, рассмотренные в курсе.

Дата и время Название Место Материалы
11 февраля
18:30–19:50
Занятие 1 Иерархический кластерный анализ, лекция Таймс, ауд. с белыми досками файлы
18 февраля
18:30–19:50
Заняти 2 Иерархический кластерный анализ, лекция Таймс, ауд. с белыми досками Нет
25 февраля
18:30–19:50
Занятие 3 Метод к-средних (k-means), лекция Таймс, ауд. с белыми досками Нет
04 марта
18:30–19:50
Занятие 4 Линейная регрессия, лекция Таймс, ауд. с белыми досками файлы
11 марта
18:30–19:50
Занятие 5 Линейная регрессия. Основы, отбор переменных, коллинеарность. Регуляризация. Линейная регрессия для прогнозирования., лекция Таймс, ауд. с белыми досками файлы
18 марта
18:30–19:50
Занятие 6, лекция Таймс, ауд. с белыми досками Нет
25 марта
18:30–19:50
Занятие 7 Линейная регрессия для прогнозирования., Регуляризация. Метод скорейшего спуска, лекция Таймс, ауд. с белыми досками файлы
01 апреля
18:30–19:50
Занятие 8 Метод k-го ближайшего соседа, лекция Таймс, ауд. с белыми досками файлы
08 апреля
18:30–19:50
Занятие 9 Деревья классификации, лекция Таймс, ауд. с белыми досками файлы
15 апреля
18:30–19:50
Занятие 10 Деревья классификации Случайные леса, лекция Таймс, ауд. с белыми досками Нет
22 апреля
18:30–19:50
Занятие 11 Случайные леса. Gradient Boosting Machine (gbm), лекция Таймс, ауд. с белыми досками файлы
29 апреля
18:30–19:50
Занятие 12 Gradient Boosting Machine (gbm), лекция Таймс, ауд. с белыми досками Нет
06 мая
18:30–19:50
Занятие 13 Gradient Boosting Machine (gbm) Калибровка моделей., лекция Таймс, ауд. с белыми досками файлы