Анализ данных на Python в примерах и задачах, часть 1
Санкт-Петербург, осень 2021
Описание
Пререквизиты к курсу
- теория вероятностей,
- математическая статистика,
- питон,
- линейная алгебра,
- математический анализ/высшая математика.
Все в объеме вузовского курса.
Знание анализа данных не требуется.
Что студенты будут уметь после окончания курса
Курс может быть базовым для подготовки к собеседованию по анализу данных.
Критерии оценивания курса
Оценка выставляется по результатам выполнения лабораторных работ.
- Если зачтены все работы, оценка
отлично
- Если зачтены все работы, кроме одной (любой), оценка
хорошо
- Если зачтены все работы, кроме двух (любых), оценка
удовлетворительно
- Если не зачтены три или больше работ, оценка
неудовлетворительно
Программа курса
Часть 1
Описательные статистики и визуализация
- Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности. Ящиковые диаграммы (Ящики с усами). Выбросы.
- Медиана и среднее арифметическое как типичные наблюдения. Диаграмма рассеивания. Матрица диаграмм рассеивания. Столбиковая и круговая диаграмма.
- Куда смотреть на графике, что важно, что неважно, какой вариант графика выбрать?
Кластерный анализ
- Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы.
- Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.
- Метод к-средних. Датчики случайных чисел, зерно датчика. Визуализация алгоритма метода к-средних. Методы определения числа кластеров.
- Каменистая осыпь/локоть. Многомерное шкалирование для визуализации кластеров. Сегментация покупателей, услуг, автозаправок.
- DBSCAN. Ленточные и шаровые кластеры
Часть 2
Проверка гипотез и линейная регрессия
- Проверка статистических гипотез (теоретическое введение).
- Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения. Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов.
- Проверка статистических гипотез (популярные критерии).
- Гипотеза о нормальности распределения. Критерий Шапиро-Уилка. Несущественные отклонения от нормальности.
- Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.
- Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями.
- Визуальная проверка выводов.
- Heatmaps.
Проверка статистических гипотез (процедуры Python).
- Критерий Шапиро-Уилка. Критерий Манна-Уитни-Вилкоксона. t-критерий Стъюдента. Критерий Флигнера-Килина.
- Критерий Пирсона, Кендалла и Спирмена.
- A/B тестирование. Тест для пропорций.
Линейный регрессионный анализ.
Интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.
Прогнозирование на основе регрессионной модели с сезонными индикаторными (фиктивными, структурными) переменными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование – прием для преобразования мультипликативной сезонности в аддитивную. Индикаторные переменные. Переобучение. Случай нескольких сезонных составляющих.
Логистическая регрессия.
- Регуляризация, ее назначение. Регуляризация в линейном регрессионном анализе. Нормальные уравнения линейного регрессионного анализа. Добавление регуляризационного слагаемого в нормальные уравнения. Особая роль свободного члена. Пример: аппроксимация точек многочленом. Выборка валидации. Варианты регуляризационного слагаемого (ridge regression, lasso, elastic net). Почему Lasso позволяет сократить число предикторов.
Часть 3
Machine Learning. От деревьев решений до XGboost
Метод к-го ближайшего соседа. Lazy Learning. Определение числа соседей.
Деревья классификации CART. Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Меры чистота узла (impurity measures): джини, энтропия, ошибки классификации. Правила останоки обучения дерева. Информативность переменных. Деревья классификации в задачах регрессии.
Случайные леса. Bagging. Ключевые параметры модели. Out-of-bag error. Информативность переменных. Анализ несбалансированных выборок. Определение числа деревьев. Информативность переменных (Importance).
Boosting. Gradient boosting machine. Ключевые параметры модели. XGboost. Теоретическое обоснование метода. Информативность переменных (Importance). Подбор параметров в XGboost. GridSearch для подбора параметров.