Технологии хранения и обработки больших объёмов данных
Санкт-Петербург, весна 2014
Описание
Курс предназначен программистам, желающим познакомиться с теоретическими и практическими аспектам технологий, связанных с хранением, обработкой, анализом больших объёмов данных и использованием их в приложениях. В основном будут рассматриваться технологии, ставшие массовыми относительно недавно, такие как распределённые файловые системы и NoSQL СУБД, но будут также затронуты возможности, предоставляемые привычными реляционных СУБД.
В материалах курса и домашних заданиях используются языки Python и Java, поэтому от слушателей требуется понимание элементарных конструкций этих языков и способность писать несложные программы, а также знание алгоритмов вообще. Знание реляционных СУБД и языка SQL тоже существенно облегчит восприятие некоторых тем курса.
Email для связи по этому курсу: bigdata@barashev.net
Преподаватели
Список лекций
Поговорим о распределенных файловых системах. Рассмотрим основные аспекты их функционирования, немного затронем историю, подробнее углубимся в архитектуру G(oogle)FS, Apache HDFS и в некоторые интересные алгоритмы.
Как производить полнотекстовый поиск в большом корпусе документов; какие структуры данных и какие методы обработки могут помочь; какой документ лучше удовлетворяет запросу, а какой хуже.
Поговорим о том, что такое Map-Reduce, к каким задачам эту технологию можно применять и при каких условиях она будет эффективной. Повертим в руках игрушечный (но работающий!) Map-Reduce.
Письменный экзамен в виде теста, состоящего из открытых и закрытых вопросов в количестве примерно 10 штук.