Технологии хранения и обработки больших объёмов данных, весна 2014

Описание

Курс предназначен программистам, желающим познакомиться с теоретическими и практическими аспектам технологий, связанных с хранением, обработкой, анализом больших объёмов данных и использованием их в приложениях. В основном будут рассматриваться технологии, ставшие массовыми относительно недавно, такие как распределённые файловые системы и NoSQL СУБД, но будут также затронуты возможности, предоставляемые привычными реляционных СУБД.

В материалах курса и домашних заданиях используются языки Python и Java, поэтому от слушателей требуется понимание элементарных конструкций этих языков и способность писать несложные программы, а также знание алгоритмов вообще. Знание реляционных СУБД и языка SQL тоже существенно облегчит восприятие некоторых тем курса.

Email для связи по этому курсу: bigdata@barashev.net

Преподаватели

Дмитрий Валерьевич Барашев

Читает лекции

Список лекций

Распределенные файловые системы

Поговорим о распределенных файловых системах. Рассмотрим основные аспекты их функционирования, немного затронем историю, подробнее углубимся в архитектуру G(oogle)FS, Apache HDFS и в некоторые интересные алгоритмы.

Полнотекстовый поиск

Как производить полнотекстовый поиск в большом корпусе документов; какие структуры данных и какие методы обработки могут помочь; какой документ лучше удовлетворяет запросу, а какой хуже.

Распределенная параллельная обработка данных технологией Map-Reduce

Поговорим о том, что такое Map-Reduce, к каким задачам эту технологию можно применять и при каких условиях она будет эффективной. Повертим в руках игрушечный (но работающий!) Map-Reduce.

PageRank и распределенные вычисления на графах

NoSQL СУБД. Google Bigtable

NoSQL и согласованность. Percolator

Поиск похожих документов

Алгоритмы кластеризации

Консенсус в распределённой системе

Лекция 10

Лекция 11

Письменный экзамен

Письменный экзамен в виде теста, состоящего из открытых и закрытых вопросов в количестве примерно 10 штук.