Информационный поиск

Санкт-Петербург, осень 2014

Описание

Входные требования пожелания

  • базовая теория вероятностей
  • основы алгоритмов и структур данных
  • Python или Perl или C++ или Java
  • способность работать с Github (Git/Mercurial/SVN)

Материалы

Учебник: C.D. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval (русское издание)

Дополнительные материалы:

Отчётность

Оценка за курс выставляется по результатам выполнения домашних заданий.

Upd. Последнее д/з было заменено на тест.

Преподаватели

Список лекций

Лекция 1. Введение. Булев поиск
  • Введение, постановка задачи, полуструктурированные данные.
  • Основные определения: коллекция, документ, информационная потребность, запрос, термин. Виды запросов.
  • Пользовательская и вычисленная релевантность. Бинарная и небинарная релевантность.
  • Основные характеристики качества поиска: точность, полнота.
  • Особенности поиска в интернете.
  • Инцидентность. Матрица инцидентности. Инвертированный индекс.
  • Булев поиск. Обработка операторов AND и OR. Выбор оптимального порядка пересечения. Недостатки.
Лекция 2. Токенизация. Нормализация
  • Переход от байтов к символам. Кодировки.
  • Определение языка документа. Сегментация.
  • Токенизация. Проблема компаундов.
  • Нормализация токенов: casefolding, диакритика, renyxa.
  • Нормализация слов: стемминг, лемматизация.
Лекция 3. Обработка многословных запросов. Простое ранжирование
  • Стоп-слова
  • Фразовые запросы. N-граммный индекс. Координатный индекс. Комбинация обоих.
  • Параметризованный индекс. Зонный индекс.
  • Ранжирование с взвешиванием по зонам.
  • Взвешивание терминов. TF-IDF.
Лекция 4. Классические модели поиска
  • Модель векторного пространства
  • Варианты tf-idf
  • Языковые модели
Лекция 5. Классические модели поиска, продолжение
  • вероятностные модели
  • модель Okapi BM25
Лекция 6. Современные подходы к ранжированию
  • PageRank
  • разновидности факторов ранжирования
  • pointwise алгоритмы
  • pairwise алгоритмы
  • listwise алгоритмы, определение потерь, ListNet