Обработка текстов на естественном языке

Санкт-Петербург, весна 2014

Описание

План занятий

1.Основы лингвистики. Слова, фразы, предложения, наборы текстов
2.Статистики, языковые модели
3.Классификация текстов
4.Практика I
5.Кластеризация текстов
6.Разбор текстов по частям речи. Поиск именных сущностей.
7.Извлечение отношений из текстов
8.Практика II
9.Поиск дубликатов в тексте
10.Анализ мнений
11.Введение в статистический машинный перевод
12.Практика III

За основу взяты две книги

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2009.

Требования к студентам

Знание теории вероятностей, линейной алгебры. Умение писать программы для обработки текстовых данных. Желательно: машинное обучение, вычислительные методы, Java.

Преподаватели