Анализ данных на Python в примерах и задачах, часть 1
Санкт-Петербург, весна 2018
Описание
Примерная программа курса
1) Описательные статистики и визуализация данных
2) Кластерный анализ
- Разбить группу объектов на подгруппы.
- Пример задачи: сегментация сайтов, определение схожих сайтов.
- Изучаемые методы. Иерархический кластерный анализ, метод к-средних, Метод к-медоидов.
3) Линейный регрессионный анализ
- Пример задачи: оценить, насколько упали цены на подержанные автомобили после увеличения таможенных пошлин.
- Изучаемые методы. Отбор переменных, коллинеарность, влиятельные наблюдения, анализ остатков.
4) Обобщения линейной регрессии
- Непараметрическая регрессия (ядерное сглаживание).
- Логистическая регрессия.
5) Machine Learning (Распознавание образов)
- Пример задачи: распознать пол и возраст у каждого посетителя сайта.
- Изучаемые методы. Метод k-го ближайшего соседа Деревья классификации (CART). Случайные леса. Gradient boosting machine.
Оценка за курс
Оценка за курс выставляется по результатам выполнения лабораторных работ. Запланировано 8 работ. Оценка выставляется по следующему правилу. Отлично - сданы все работы. Хорошо - сданы все работы, кроме одной. Удовлетворительно - сданы все работы, кроме двух. Каждый раз Вам будет предоставлен набор данных и вопрос про эти данные. Надо ответить на вопрос, используя методы, рассмотренные в курсе.
Преподаватели
Список лекций
Описательные статистики. Гистограммы. Ящики с усами. Ядерные оценки плотности.
Данные для первых двух лабораторных работ в архиве Shad_Python_Lab_1_2.zip
A/B тестирование. Линейный регрессионный анализ.
Линейная регрессия. Линейная регрессия для прогнозирования.