Воспроизводимая наука о данных. Инструменты воспроизводимых исследований

Санкт-Петербург, весна 2016

Описание

В рамках курса будет дан обзор инструментов, позволяющих повысить прозрачность и воспроизводимость академических и прикладных исследований. Будет рассмотрена модель ведения анализа с момента, когда данные эксперимента собраны и сохранены, до момента публикации результатов в виде статьи или в виде сервиса - предсказательной модели.

Такие технологии как jupyterhub, docker, snakemake, travis, gitlab-ci, заимствованные из области разработки программного обеспечения позволяют лучше сфокусироваться на содержании исследования и экономить время на технических обсуждениях особенностей реализации. Основные инструменты и практики, описываемые в рамках курса, применяются в рамках проведения совместных исследований в индустрии (на примере Яндекса) или физике высоких энергий (на примере CERN). Тем не менее, описанные практики имеют гораздо более широкую применимость. Благодаря предлагаемым подходам работа в команде может стать гораздо более эффективной В рамках курса будут даны практические задания, которые помогут закрепить навыки совместной работы над исследовательскими задачами.

Требования к участникам:

  • Умение работать с Python для исследовательских задач - библиотеки numpy, pandas, sklearn. Если Вы в себе сомневаетесь, попробуйте простые задачи с Kaggle, например, https://www.kaggle.com/c/titanic.
  • Принести ноутбук с зарядным устройством и Wi-Fi. Установить на него https://www.docker.com/.

Преподаватели