Введение в обработку естественного языка
Санкт-Петербург, осень 2017
Описание
О программе
Курс познакомит слушателей с наиболее часто встречающимися на практике задачами и базовыми подходами в автоматической обработке текстов.
Будут рассмотрены классификация и кластеризация текстов, поиск дубликатов, частеречная разметка, выделение именованных сущностей, векторное представление слов, машинный перевод и несколько других смежных задач.
Требования к слушателям
- базовые навыки программирования на Python,
- знание основ линейной алгебры и классической вероятности или готовность разобраться в них самостоятельно на ходу,
- интерес к анализу естественного языка и машинному обучению.
Технические требования
- Python 3.5+ (возможно, понадобится и второй питон, но для этого сможем воспользоваться облачным сервисом)
- pip (и возможность установки пакетов с его помощью)
- ваша любимая IDE для написания кода на питоне (notepad, spyder, pycharm, любая другая)
Логистика курса
Занятия раз в неделю. При необходимости будет проведено несколько практических семинаров или дополнительных занятий в тот же день.
Оценка будет складываться из взвешенной суммы баллов
- за выполненные домашние работы; за преподавателями остаётся право снизить оценку за малопонятный код, поэтому рекомендуем ознакомиться с правилами хорошего тона :)
- за контрольные работы по материалам предыдущих занятий
- за дополнительное задание (можно делать, можно не делать)
Хорошие книги
- D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2nd edition. Prentice-Hall. 2009.
- Chr. Manning, Pr. Raghavan and H. Schütze. Introduction to Information Retrieval, Cambridge University Press. 2008.
- Chr. Manning, H. Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
- Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). Прикладная и КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА. Изд.2 Прикладная и компьютерная лингвистика URSS. 2017.