Введение в обработку естественного языка
Санкт-Петербург / осень 2017, посмотреть все семестры

О программе

Курс познакомит слушателей с наиболее часто встречающимися на практике задачами и базовыми подходами в автоматической обработке текстов.

Будут рассмотрены классификация и кластеризация текстов, поиск дубликатов, частеречная разметка, выделение именованных сущностей, векторное представление слов, машинный перевод и несколько других смежных задач.

Требования к слушателям

  • базовые навыки программирования на Python,
  • знание основ линейной алгебры и классической вероятности или готовность разобраться в них самостоятельно на ходу,
  • интерес к анализу естественного языка и машинному обучению.

Технические требования

  • Python 3.5+ (возможно, понадобится и второй питон, но для этого сможем воспользоваться облачным сервисом)
  • pip (и возможность установки пакетов с его помощью)
  • ваша любимая IDE для написания кода на питоне (notepad, spyder, pycharm, любая другая)

Логистика курса

Занятия раз в неделю. При необходимости будет проведено несколько практических семинаров или дополнительных занятий в тот же день.

Оценка будет складываться из взвешенной суммы баллов

  • за выполненные домашние работы; за преподавателями остаётся право снизить оценку за малопонятный код, поэтому рекомендуем ознакомиться с правилами хорошего тона :)
  • за контрольные работы по материалам предыдущих занятий
  • за дополнительное задание (можно делать, можно не делать)

Хорошие книги

  • D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentice-Hall. 2009.
  • Chr. Manning, Pr. Raghavan and H. Schütze. Introduction to Information Retrieval, Cambridge University Press. 2008.
  • Chr. Manning, H. Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
  • Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). Прикладная и КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА. Изд.2 Прикладная и компьютерная лингвистика URSS. 2017.
Дата и время Название Место Материалы
13 сентября
20:00–21:20
Введение. Задачи АОТ в информационном поиске., лекция Таймс, 2 этаж, ауд.204 слайды
20 сентября
20:00–21:20
Сходство строк. Регулярные выражения. Распространённые способы представления текстов для задач машинного обучения., лекция Таймс, 2 этаж, ауд.204 слайды
27 сентября
20:00–21:20
Языковое моделирование. N-граммные модели. Перплексия. Валидация моделей., лекция Таймс, 2 этаж, ауд.204 слайды
11 октября
20:00–21:20
Инструментарий: марковские цепи и элементы теории информации. Примеры применения., лекция Таймс, 2 этаж, ауд.204 слайды
18 октября
20:00–21:20
Элементы теории информации и приложения - II. Векторная семантика - I., лекция Таймс, 2 этаж, ауд.204 слайды
25 октября
20:00–21:20
Векторная семантика - II., лекция Таймс, 2 этаж, ауд.204 слайды
01 ноября
20:00–21:20
Поиск структуры в текстах как наборах слов - I. Кластеризация., лекция Таймс, 2 этаж, ауд.204 слайды
08 ноября
20:00–21:20
Поиск структуры в текстах как наборах слов - II. Обнаружение дубликатов. Тематическое моделирование., лекция Таймс, 2 этаж, ауд.204 слайды
15 ноября
20:00–21:20
Классификация текстов - I., лекция Таймс, 2 этаж, ауд.204 слайды
22 ноября
20:00–21:20
Классификация - II. Частеречная разметка и выделение именованных сущностей как задачи sequence modeling., лекция Таймс, 2 этаж, ауд.204 слайды
29 ноября
20:00–21:20
Классификация последовательностей, продолжение. Компьютерный синтаксис - I., лекция Таймс, 2 этаж, ауд.204 слайды
06 декабря
20:00–21:20
Машинный перевод, лекция Таймс, 2 этаж, ауд.204 слайды
13 декабря
20:00–21:20
Компьютерный синтаксис -- II. Разбор контрольных работ., лекция Таймс, 2 этаж, ауд.204 слайды