Анализ данных на Python в примерах и задачах, часть 1

Санкт-Петербург, весна 2018

Описание

Примерная программа курса

1) Описательные статистики и визуализация данных

2) Кластерный анализ

  • Разбить группу объектов на подгруппы.
  • Пример задачи: сегментация сайтов, определение схожих сайтов.
  • Изучаемые методы. Иерархический кластерный анализ, метод к-средних, Метод к-медоидов.

3) Линейный регрессионный анализ

  • Пример задачи: оценить, насколько упали цены на подержанные автомобили после увеличения таможенных пошлин.
  • Изучаемые методы. Отбор переменных, коллинеарность, влиятельные наблюдения, анализ остатков.

4) Обобщения линейной регрессии

  • Непараметрическая регрессия (ядерное сглаживание).
  • Логистическая регрессия.

5) Machine Learning (Распознавание образов)

  • Пример задачи: распознать пол и возраст у каждого посетителя сайта.
  • Изучаемые методы. Метод k-го ближайшего соседа Деревья классификации (CART). Случайные леса. Gradient boosting machine.

Оценка за курс

Оценка за курс выставляется по результатам выполнения лабораторных работ. Запланировано 8 работ. Оценка выставляется по следующему правилу. Отлично - сданы все работы. Хорошо - сданы все работы, кроме одной. Удовлетворительно - сданы все работы, кроме двух. Каждый раз Вам будет предоставлен набор данных и вопрос про эти данные. Надо ответить на вопрос, используя методы, рассмотренные в курсе.

Преподаватели

Список лекций

Занятие 1. Описательные статистики. Квантили, квартили. Гистограммы

Описательные статистики. Гистограммы. Ящики с усами. Ядерные оценки плотности.

Занятие 4. Метод к-средних

Данные для первых двух лабораторных работ в архиве Shad_Python_Lab_1_2.zip

Занятие 8. Линейная регрессия

A/B тестирование. Линейный регрессионный анализ.