Анализ данных на R в примерах и задачах, часть 1
Санкт-Петербург / весна 2016, посмотреть все семестры

Программа курса

Элементы программирования в R

  • Описательные статистики и визуализация
  • Например, что важнее: средний чек или типичный чек?

Кластерный анализ

  • Какая задача решается. Разбить группу объектов на подгруппы.
  • Пример задачи. Сегментация сайтов, определение схожих сайтов.
  • Изучаемые методы. Иерархический кластерный анализ, метод к-средних, Метод к-медоидов.

Проверка статистических гипотез

  • Какая задача решается. Сравнить две группы объектов.
  • Пример задачи. A/B тестирование поведения пользователя на разных версиях страницы сайта.
  • Изучаемые методы. Тест для пропорций, Критерий Стьюдента, Критерий Ливиня, Критерий Уилкоксона-Манна-Уитни

Линейный регрессионный анализ.

  • Пример задачи. Оценить, насколько упали цены на подержанные автомобили после увеличения таможенных пошлин.
  • Изучаемые методы. Отбор переменных, коллинеарность, влиятельные наблюдения, анализ остатков. Непараметрическая регрессия (ядерное сглаживание). Прогнозирование коротких рядов с сезонной составляющей с помощью линейной регрессии

Прогнозирование

  • Какая задача решается. Построить прогноз временного ряда
  • Пример задачи. Спрогнозировать посещаемость сайта на 6 месяцев вперед.
  • Изучаемый метод. Экспоненциальное сглаживание

Machine Learning (Распознавание образов)

  • Пример задачи. Распознать пол и возраст у каждого посетителя сайта
  • Изучаемые методы. Метод k-го ближайшего соседа Деревья классификации (CART). Случайные леса. Gradient boosting machine

Оценки за курс

Слушателям будут выданы 14 лабораторных работ. Оценка за курс выставляется по следующему правилу:

  • Отлично — зачтены все работы;
  • Хорошо – зачтены все работы, кроме однои?;
  • Удовлетворительно – зачтены все работы, кроме двух;
  • Неудовлетворительно — в остальных случаях.

Лабораторная работа состоит в том, что

  • слушателю выдается набор данных и вопрос;
  • слушатель отвечает на вопрос, подкрепляя свои утверждения таблицами, графиками и скриптом, написанным на языке R;
  • слушатель отвечает на дополнительные вопросы.

Пример вопроса. Предложить параметры, которые обеспечат оптимальную работу алгоритма Random Forest при распознавании марки вина по результатам химического анализа.

Что нужно знать, чтобы слушать курс

Предполагается, что слушатели курса уже прослушали курс теории вероятностей.

Литература

  • Шипунов, Балдин, Волкова, Коробейников, Назарова, Петров,Суфиянов Наглядная статистика. Используем R
  • Мастицкий, Шитиков Статистический анализ и визуализация данных с помощью R
  • Bishop Pattern Recognition and Machine Learning.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. With Applications in R.
  • Hastie, Tibshirani, Friedman. The Elements of Statistical Learning_Data Mining, Inference, and Prediction 2+ed
  • Crawley. The R Book.
  • Kabacoff R in Action. Data analysis and graphics with R.
Дата и время Название Место Материалы
10 февраля
18:30–19:50
Занятие 1 Введение в R, лекция Таймс, ауд. с белыми досками видео
17 февраля
18:30–21:20
Занятие 2. Элементы программирования в R. Описательные статистики, лекция Таймс, ауд. с белыми досками слайдывидео, файлы
24 февраля
18:30–21:20
Занятие 3 Иерархический кластерный анализ, лекция Таймс, ауд. с белыми досками слайдывидео, файлы
02 марта
18:30–21:20
Занятие 4 Метод к-средних. Проверка гипотез, лекция Таймс, ауд. с белыми досками слайдывидео, файлы
09 марта
18:30–21:20
Занятие 5 Проверка статистических гипотез, лекция Таймс, ауд. с белыми досками слайдывидео, файлы
16 марта
18:30–21:20
Занятие 6. Проверка статистических гипотез. Линейная регрессия, лекция Таймс, ауд. с белыми досками видеофайлы
23 марта
18:30–21:20
Занятие 7. Линейный регрессионный анализ. Прогнозирование коротких временных рядов с сезонной составляющей., лекция Таймс, ауд. с белыми досками слайдывидео, файлы
30 марта
18:30–21:20
Занятие 8. Линейная регрессия - анализ остатков, лекция Таймс, ауд. с белыми досками видеофайлы
06 апреля
18:30–21:20
Занятие 9. Экспоненциальное сглаживание. Распознавание образов: метод к-го ближайшего соседа., лекция Таймс, ауд. с белыми досками видеофайлы
13 апреля
18:30–21:20
Занятие 10. Метод к-го ближайшего соседа. Деревья классификации, лекция Таймс, ауд. с белыми досками видеофайлы
20 апреля
18:30–21:20
Занятие 11. Случайные леса. Gradient boosting machine., лекция Таймс, ауд. с белыми досками слайдывидео, файлы
27 апреля
18:30–21:20
Занятие 12. Факторный анализ, лекция Таймс, ауд. с белыми досками слайдывидео, файлы
04 мая
18:30–21:20
Сдача заданий, семинар Таймс, ауд. с белыми досками Нет
11 мая
18:30–21:20
Сдача заданий, семинар Таймс, ауд. с белыми досками Нет
18 мая
18:30–21:20
Сдача заданий, семинар Таймс, ауд. с белыми досками Нет