Информационный поиск
Санкт-Петербург, осень 2014
Описание
Входные требования пожелания
- базовая теория вероятностей
- основы алгоритмов и структур данных
- Python или Perl или C++ или Java
- способность работать с Github (Git/Mercurial/SVN)
Материалы
Учебник: C.D. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval (русское издание)
Дополнительные материалы:
- Денис Расковалов. Информационный поиск изнутри
- Поисковые технологии Яндекса
- Илья Тетерин. Поисковая система своими руками
- Архив РОМИП
- Yandex Research
Отчётность
Оценка за курс выставляется по результатам выполнения домашних заданий.
Upd. Последнее д/з было заменено на тест.
Преподаватели
Список лекций
Лекция 1. Введение. Булев поиск
- Введение, постановка задачи, полуструктурированные данные.
- Основные определения: коллекция, документ, информационная потребность, запрос, термин. Виды запросов.
- Пользовательская и вычисленная релевантность. Бинарная и небинарная релевантность.
- Основные характеристики качества поиска: точность, полнота.
- Особенности поиска в интернете.
- Инцидентность. Матрица инцидентности. Инвертированный индекс.
- Булев поиск. Обработка операторов AND и OR. Выбор оптимального порядка пересечения. Недостатки.
Лекция 2. Токенизация. Нормализация
- Переход от байтов к символам. Кодировки.
- Определение языка документа. Сегментация.
- Токенизация. Проблема компаундов.
- Нормализация токенов: casefolding, диакритика, renyxa.
- Нормализация слов: стемминг, лемматизация.
Лекция 3. Обработка многословных запросов. Простое ранжирование
- Стоп-слова
- Фразовые запросы. N-граммный индекс. Координатный индекс. Комбинация обоих.
- Параметризованный индекс. Зонный индекс.
- Ранжирование с взвешиванием по зонам.
- Взвешивание терминов. TF-IDF.
Лекция 4. Классические модели поиска
- Модель векторного пространства
- Варианты tf-idf
- Языковые модели
Лекция 5. Классические модели поиска, продолжение
- вероятностные модели
- модель Okapi BM25
Лекция 6. Современные подходы к ранжированию
- PageRank
- разновидности факторов ранжирования
- pointwise алгоритмы
- pairwise алгоритмы
- listwise алгоритмы, определение потерь, ListNet