Информационный поиск

Санкт-Петербург, осень 2016

Описание

Содержание

Курс рассматривает базовые методы информационного поиска: получение и подготовка данных, индексирование, ранжирование, оценка качества; а также темы, актуальные в последние несколько лет: машинное обучение для ранжирования, онлайн оценка, тематические модели, агрегированный поиск и т.д. Полный список тем см. в разделе Занятия. Для подготовки к курсу рекомендуется прочитать вторую главу учебника Croft et al. (см. в разделе Литература).

Структура курса

Курс состоит из 12 лекций, разбитых на 3 блока (один блок раз в 5 недель). В конце каждого блока студенты получают письменное домашнее задание. ДЗ включает в основном теоретические задания для проверки понимания материала. Оценка за ДЗ выставляется только студентам CS-центра. Для остальных слушателей курса будет проводиться открытый разбор заданий.

Необходимые знания

Для прохождения курса нужны следующие базовые знания:

  • Мат. анализ
  • Статистика
  • Алгоритмы и теория сложности

Литература

Курс основан на следующих учебниках:

Преподаватели

Список лекций

Оценка качества информационного поиска (онлайн)

  • Поведение пользователей
  • A/B-тестирование
  • Интерливинг
  • Получение данных для поиска

  • Обход веба (crawling)
  • Спам
  • Подготовка данных и индексирование

  • Обработка текста: токенизация, нормализация
  • Индексы
  • Обработка запросов

    Обработка запросов

  • Исправление опечаток
  • Расширение запроса
  • Предложение альтернативных запросов
  • Автодополнение запроса
  • Классические подходы к ранжированию

    Классические подходы к ранжированию

  • Векторная модель, tf-idf
  • Вероятностная модель, BM25
  • Языковые модели
  • Классические подходы к ранжированию (продолжение)

    Классические подходы к ранжированию (продолжение)

  • Векторная модель, tf-idf
  • Вероятностная модель, BM25
  • Языковые модели
  • Ранжирование с помощью семантических методов и анализа ссылок

    Ранжирование с помощью семантических методов

    • Латентно-семантический анализ (LSA/LSI)
    • Тематические модели (pLSA, LDA)
    • Распределенные представления для слов и документов (word2vec, DSSM)

    Ранжирование с помощью анализа ссылок

    • PageRank
    • HITS
    Машинное обучения для ранжирования

    Машинное обучения для ранжирования

    • Point-wise
    • Pair-wise
    • List-wise

    Обзор современных проблем и задач в области информационного поиска

    Федеративный поиск
    • Распределенный поиск (distributed IR)
    • Агрегированный поиск (aggregated search)
    Кликовые модели
    • Каскадные и позиционные модели
    • Модели на основе нейронных сетей