Анализ данных на R в примерах и задачах, часть 1

Санкт-Петербург, весна 2016

Описание

Программа курса

Элементы программирования в R

  • Описательные статистики и визуализация
  • Например, что важнее: средний чек или типичный чек?

Кластерный анализ

  • Какая задача решается. Разбить группу объектов на подгруппы.
  • Пример задачи. Сегментация сайтов, определение схожих сайтов.
  • Изучаемые методы. Иерархический кластерный анализ, метод к-средних, Метод к-медоидов.

Проверка статистических гипотез

  • Какая задача решается. Сравнить две группы объектов.
  • Пример задачи. A/B тестирование поведения пользователя на разных версиях страницы сайта.
  • Изучаемые методы. Тест для пропорций, Критерий Стьюдента, Критерий Ливиня, Критерий Уилкоксона-Манна-Уитни

Линейный регрессионный анализ.

  • Пример задачи. Оценить, насколько упали цены на подержанные автомобили после увеличения таможенных пошлин.
  • Изучаемые методы. Отбор переменных, коллинеарность, влиятельные наблюдения, анализ остатков. Непараметрическая регрессия (ядерное сглаживание). Прогнозирование коротких рядов с сезонной составляющей с помощью линейной регрессии

Прогнозирование

  • Какая задача решается. Построить прогноз временного ряда
  • Пример задачи. Спрогнозировать посещаемость сайта на 6 месяцев вперед.
  • Изучаемый метод. Экспоненциальное сглаживание

Machine Learning (Распознавание образов)

  • Пример задачи. Распознать пол и возраст у каждого посетителя сайта
  • Изучаемые методы. Метод k-го ближайшего соседа Деревья классификации (CART). Случайные леса. Gradient boosting machine

Оценки за курс

Слушателям будут выданы 14 лабораторных работ. Оценка за курс выставляется по следующему правилу:

  • Отлично — зачтены все работы;
  • Хорошо – зачтены все работы, кроме однои?;
  • Удовлетворительно – зачтены все работы, кроме двух;
  • Неудовлетворительно — в остальных случаях.

Лабораторная работа состоит в том, что

  • слушателю выдается набор данных и вопрос;
  • слушатель отвечает на вопрос, подкрепляя свои утверждения таблицами, графиками и скриптом, написанным на языке R;
  • слушатель отвечает на дополнительные вопросы.

Пример вопроса. Предложить параметры, которые обеспечат оптимальную работу алгоритма Random Forest при распознавании марки вина по результатам химического анализа.

Что нужно знать, чтобы слушать курс

Предполагается, что слушатели курса уже прослушали курс теории вероятностей.

Литература

  • Шипунов, Балдин, Волкова, Коробейников, Назарова, Петров,Суфиянов Наглядная статистика. Используем R
  • Мастицкий, Шитиков Статистический анализ и визуализация данных с помощью R
  • Bishop Pattern Recognition and Machine Learning.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. With Applications in R.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning_Data Mining, Inference, and Prediction 2+ed
  • Crawley. The R Book.
  • Kabacoff R in Action. Data analysis and graphics with R.

Преподаватели

Список лекций

Занятие 1 Введение в R

R бесплатный, популярный и современный. R и другие языки. R и SAS. R и SPSS. R и Python. RStudio. Импорт данных в R. Гистограмма.

Занятие 2. Элементы программирования в R. Описательные статистики

Введение в R: базовые команды. Медиана, квантили и квартили. Гистограмма. Столбиковая диаграмма. Круговая диаграмма. Диаграмма рассеивания. Матрица диаграмм рассеивания. Использование цвета на графике. Ящики с усами (ящиковая диаграмма). Типичное наблюдение выборки: среднее арифметическое, медиана или усеченное среднее. Выбор способа описания типичного значения, адекватного анализируемым данным. Логнормальное распределение. Выбросы и экстремальные наблюдения.

Занятие 3 Иерархический кластерный анализ

Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы. Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.

Занятие 4 Метод к-средних. Проверка гипотез

Метод к-средних. Датчики случайных чисел, зерно датчика. Визуализация алгоритма метода к-средних. Методы определения числа кластеров. Библиотека NbClust. Каменистая осыпь/локоть. Многомерное шкалирование для визуализации кластеров.

Проверка статистических гипотез. Гипотезы согласия, однородности, независимости, гипотзы о параметрах распределения.

Занятие 5 Проверка статистических гипотез

Проверка статистических гипотез. Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов. Гипотеза о нормальности распределения. Критерии Шапиро-Уилка и Колмогорова-Смирнова. Несущественные отклонения от нормальности. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.

Занятие 6. Проверка статистических гипотез. Линейная регрессия

Проверка статистических гипотез. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты. Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями. Визуальная проверка выводов.

Линейный регрессионный анализ Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

Занятие 7. Линейный регрессионный анализ. Прогнозирование коротких временных рядов с сезонной составляющей.

Линейный регрессионный анализ: прогнозирование коротких временных рядов.

Прогнозирование на основе регрессионной модели с сезонными индикаторными (фиктивными, структурными) переменными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование – прием для преобразования мультипликативной сезонности в аддитивную. Индикаторные переменные. Переобучение.

Занятие 8. Линейная регрессия - анализ остатков

Линейная регрессия - анализ остатков. Нарушения модельных ограничений теоремы Гаусса-Маркова. Анализ остатков. Ошибка спецификации. Мультиколлинеарность, Tolerance и VIF. Проверка постоянства дисперсий остатков. Коррекция моделей при наличии отклонений распределения остатков от нормальности. Расстояние Кука и leverage. Статистика Дурбина-Ватсона. Сокращение числа сезонных поправок.

Занятие 9. Экспоненциальное сглаживание. Распознавание образов: метод к-го ближайшего соседа.

Экспоненциальное сглаживание Метод Holt'а-Winters'а. Локальный тренд, локальная сезонность.

Терминология: Machine Learning, Artificial Intelligence, Data Mining и Pattern Recognition.

Метод к-го ближайшего соседа. Состоятельность метода. Lazy learning (ленивое обучение). Feature Selection. Кросс-валидация. k-fold кросс-валидация. Overfitting (Чрезмерная подгонка). Обучающая и тестовая выборки.

Занятие 10. Метод к-го ближайшего соседа. Деревья классификации

Метод к-го ближайшего соседа Примеры. Определение числа ближайших соседей. Таблица сопряженности для определения качества работы метода.

Деревья классификации CART. Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Библиотека rpart. Меры чистота узла (impurity measures). Методы измерения чистоты: джини, энтропия, ошибки классификации. Правила останоки обучения дерева. Библиотека rpart.plot.

Занятие 11. Случайные леса. Gradient boosting machine.

Приемы объединения классификаторов: Stacking, bagging и boosting.

Случайные леса. Bagging. Библиотека RandomForest. Ключевые параметры модели. Out-of-bag error. Информативность переменных (Importance). Анализ несбалансированных выборок. Определение числа деревьев.

Gradient boosting machine. Boosting. Библиотека gbm. gbm и TreeNet. Ключевые параметры модели.

Занятие 12. Факторный анализ

Анализ главных компонент и факторный анализ. Задачи, решаемые с помощью факторного анализа. Математические модели анализа главных компонент и факторного анализа. Факторные нагрузки, факторные метки, их интерпретация. Вращения факторов. Интерпретация факторов.