Воспроизводимая наука о данных. Инструменты воспроизводимых исследований
Санкт-Петербург / весна 2016, посмотреть все семестры

В рамках курса будет дан обзор инструментов, позволяющих повысить прозрачность и воспроизводимость академических и прикладных исследований. Будет рассмотрена модель ведения анализа с момента, когда данные эксперимента собраны и сохранены, до момента публикации результатов в виде статьи или в виде сервиса - предсказательной модели.

Такие технологии как jupyterhub, docker, snakemake, travis, gitlab-ci, заимствованные из области разработки программного обеспечения позволяют лучше сфокусироваться на содержании исследования и экономить время на технических обсуждениях особенностей реализации. Основные инструменты и практики, описываемые в рамках курса, применяются в рамках проведения совместных исследований в индустрии (на примере Яндекса) или физике высоких энергий (на примере CERN). Тем не менее, описанные практики имеют гораздо более широкую применимость. Благодаря предлагаемым подходам работа в команде может стать гораздо более эффективной В рамках курса будут даны практические задания, которые помогут закрепить навыки совместной работы над исследовательскими задачами.

Требования к участникам:

  • Умение работать с Python для исследовательских задач - библиотеки numpy, pandas, sklearn. Если Вы в себе сомневаетесь, попробуйте простые задачи с Kaggle, например, https://www.kaggle.com/c/titanic.
  • Принести ноутбук с зарядным устройством и Wi-Fi. Установить на него https://www.docker.com/.

Дата и время Название Место Материалы
16 апреля
18:30–19:20
Введение. Из чего состоит исследование., лекция Таймс, ауд. с белыми досками слайдывидео
16 апреля
19:20–20:40
Организация хранения и доступа к данным., лекция Таймс, ауд. с белыми досками слайдыфайлы
16 апреля
19:50–21:10
Переносимые окружения - virtualenv, conda, Docker, лекция Таймс, ауд. с белыми досками слайды
17 апреля
11:15–12:35
Решения для запуска Jupyter в облаке, лекция Таймс, ауд. с белыми досками слайдывидео
17 апреля
12:45–14:05
Запуск тетрадок jupyter из контейнера docker, лекция Таймс, ауд. с белыми досками видео
23 апреля
18:30–18:50
Повторение пройденого, лекция Таймс, ауд. с белыми досками слайдывидео
23 апреля
18:50–20:10
Средства автоматизации workflow, лекция Таймс, ауд. с белыми досками слайды
23 апреля
19:50–21:10
Continuous integration, лекция Таймс, ауд. с белыми досками слайдыдругие
24 апреля
11:15–12:35
Публикация результатов анализа как сервиса (Jupyter as service), лекция Таймс, ауд. с белыми досками слайдывидео
24 апреля
12:45–13:00
Ресурсы для сравнения решений (OpenML, Kaggle scripts), лекция Таймс, ауд. с белыми досками слайды
24 апреля
13:10–14:15
Примеры из индустрии и науки, лекция Таймс, ауд. с белыми досками другие