Введение в обработку естественного языка

Санкт-Петербург, осень 2017

Описание

О программе

Курс познакомит слушателей с наиболее часто встречающимися на практике задачами и базовыми подходами в автоматической обработке текстов.

Будут рассмотрены классификация и кластеризация текстов, поиск дубликатов, частеречная разметка, выделение именованных сущностей, векторное представление слов, машинный перевод и несколько других смежных задач.

Требования к слушателям

  • базовые навыки программирования на Python,
  • знание основ линейной алгебры и классической вероятности или готовность разобраться в них самостоятельно на ходу,
  • интерес к анализу естественного языка и машинному обучению.

Технические требования

  • Python 3.5+ (возможно, понадобится и второй питон, но для этого сможем воспользоваться облачным сервисом)
  • pip (и возможность установки пакетов с его помощью)
  • ваша любимая IDE для написания кода на питоне (notepad, spyder, pycharm, любая другая)

Логистика курса

Занятия раз в неделю. При необходимости будет проведено несколько практических семинаров или дополнительных занятий в тот же день.

Оценка будет складываться из взвешенной суммы баллов

  • за выполненные домашние работы; за преподавателями остаётся право снизить оценку за малопонятный код, поэтому рекомендуем ознакомиться с правилами хорошего тона :)
  • за контрольные работы по материалам предыдущих занятий
  • за дополнительное задание (можно делать, можно не делать)

Хорошие книги

  • D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentice-Hall. 2009.
  • Chr. Manning, Pr. Raghavan and H. Schütze. Introduction to Information Retrieval, Cambridge University Press. 2008.
  • Chr. Manning, H. Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
  • Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). Прикладная и КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА. Изд.2 Прикладная и компьютерная лингвистика URSS. 2017.

Преподаватели

Список лекций