Анализ данных на Python в примерах и задачах, часть 1

Санкт-Петербург, осень 2020

Описание

Пререквизиты к курсу

  • теория вероятностей,
  • математическая статистика,
  • питон,
  • линейная алгебра,
  • математический анализ/высшая математика.

Все в объеме вузовского курса.

Знание анализа данных не требуется.

Что студенты будут уметь после окончания курса

Курс может быть базовым для подготовки к собеседованию по анализу данных.

Критерии оценивания курса

Оценка выставляется по результатам выполнения лабораторных работ.

  • Если зачтены все работы, оценка отлично
  • Если зачтены все работы, кроме одной (любой), оценка хорошо
  • Если зачтены все работы, кроме двух (любых), оценка удовлетворительно
  • Если не зачтены три или больше работ, оценка неудовлетворительно

Программа курса

Часть 1

Описательные статистики и визуализация

  • Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности. Ящиковые диаграммы (Ящики с усами). Выбросы.
  • Медиана и среднее арифметическое как типичные наблюдения. Диаграмма рассеивания. Матрица диаграмм рассеивания. Столбиковая и круговая диаграмма.
  • Куда смотреть на графике, что важно, что неважно, какой вариант графика выбрать?

Кластерный анализ

  • Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы.
  • Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.
  • Метод к-средних. Датчики случайных чисел, зерно датчика. Визуализация алгоритма метода к-средних. Методы определения числа кластеров.
  • Каменистая осыпь/локоть. Многомерное шкалирование для визуализации кластеров. Сегментация покупателей, услуг, автозаправок.
  • DBSCAN. Ленточные и шаровые кластеры

Часть 2

Проверка гипотез и линейная регрессия

  • Проверка статистических гипотез (теоретическое введение).
  • Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения. Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов.
  • Проверка статистических гипотез (популярные критерии).
  • Гипотеза о нормальности распределения. Критерий Шапиро-Уилка. Несущественные отклонения от нормальности.
  • Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.
  • Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями.
  • Визуальная проверка выводов.
  • Heatmaps.

Проверка статистических гипотез (процедуры Python).

  • Критерий Шапиро-Уилка. Критерий Манна-Уитни-Вилкоксона. t-критерий Стъюдента. Критерий Флигнера-Килина.
  • Критерий Пирсона, Кендалла и Спирмена.
  • A/B тестирование. Тест для пропорций.

Линейный регрессионный анализ.

  • Интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

  • Прогнозирование на основе регрессионной модели с сезонными индикаторными (фиктивными, структурными) переменными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование – прием для преобразования мультипликативной сезонности в аддитивную. Индикаторные переменные. Переобучение. Случай нескольких сезонных составляющих.

Логистическая регрессия.

  • Регуляризация, ее назначение. Регуляризация в линейном регрессионном анализе. Нормальные уравнения линейного регрессионного анализа. Добавление регуляризационного слагаемого в нормальные уравнения. Особая роль свободного члена. Пример: аппроксимация точек многочленом. Выборка валидации. Варианты регуляризационного слагаемого (ridge regression, lasso, elastic net). Почему Lasso позволяет сократить число предикторов.

Часть 3

Machine Learning. От деревьев решений до XGboost

  • Метод к-го ближайшего соседа. Lazy Learning. Определение числа соседей.

  • Деревья классификации CART. Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Меры чистота узла (impurity measures): джини, энтропия, ошибки классификации. Правила останоки обучения дерева. Информативность переменных. Деревья классификации в задачах регрессии.

  • Случайные леса. Bagging. Ключевые параметры модели. Out-of-bag error. Информативность переменных. Анализ несбалансированных выборок. Определение числа деревьев. Информативность переменных (Importance).

  • Boosting. Gradient boosting machine. Ключевые параметры модели. XGboost. Теоретическое обоснование метода. Информативность переменных (Importance). Подбор параметров в XGboost. GridSearch для подбора параметров.

Преподаватели

Список лекций