Обработка текстов на естественном языке
Санкт-Петербург / весна 2014, посмотреть все семестры

План занятий

1.Основы лингвистики. Слова, фразы, предложения, наборы текстов
2.Статистики, языковые модели
3.Классификация текстов
4.Практика I
5.Кластеризация текстов
6.Разбор текстов по частям речи. Поиск именных сущностей.
7.Извлечение отношений из текстов
8.Практика II
9.Поиск дубликатов в тексте
10.Анализ мнений
11.Введение в статистический машинный перевод
12.Практика III

За основу взяты две книги

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2009.

Требования к студентам

Знание теории вероятностей, линейной алгебры. Умение писать программы для обработки текстовых данных. Желательно: машинное обучение, вычислительные методы, Java.

Дата и время Название Место Материалы
17 февраля
18:30–20:00
Основы лингвистики. Слова, фразы, предложения, наборы текстов , лекция ФМЛ 239, Актовый зал слайды
24 февраля
18:30–20:00
Статистики, языковые модели, лекция ФМЛ 239, Актовый зал слайды
03 марта
18:30–20:00
Классификация текстов, лекция ФМЛ 239, Актовый зал слайды
17 марта
18:30–20:00
Классификация текстов при помощи Weka, семинар ФМЛ 239, Актовый зал слайды
24 марта
18:30–20:00
Кластеризация текстов, лекция ФМЛ 239, Актовый зал слайды
31 марта
18:30–20:00
Разбор текстов по частям речи. Поиск именных сущностей. , лекция ФМЛ 239, Актовый зал слайды
07 апреля
18:30–20:00
Извлечение отношений из текстов , лекция ФМЛ 239, Актовый зал слайды
14 апреля
18:30–20:00
Практика II , семинар ФМЛ 239, Актовый зал слайды
21 апреля
18:30–20:00
Поиск дубликатов в тексте , лекция ФМЛ 239, Актовый зал другие
28 апреля
18:30–20:00
Анализ мнений , лекция ФМЛ 239, Актовый зал слайды
12 мая
18:30–20:00
Введение в статистический машинный перевод, лекция ФМЛ 239, Актовый зал слайды
19 мая
18:30–20:00
Тест, лекция ФМЛ 239, Актовый зал Нет