Обработка текстов на естественном языке

Санкт-Петербург, весна 2014

Описание

План занятий

1.Основы лингвистики. Слова, фразы, предложения, наборы текстов
2.Статистики, языковые модели
3.Классификация текстов
4.Практика I
5.Кластеризация текстов
6.Разбор текстов по частям речи. Поиск именных сущностей.
7.Извлечение отношений из текстов
8.Практика II
9.Поиск дубликатов в тексте
10.Анализ мнений
11.Введение в статистический машинный перевод
12.Практика III

За основу взяты две книги

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Philipp Koehn. Statistical Machine Translation. Cambridge University Press, 2009.

Требования к студентам

Знание теории вероятностей, линейной алгебры. Умение писать программы для обработки текстовых данных. Желательно: машинное обучение, вычислительные методы, Java.

Преподаватели

Список лекций

Основы лингвистики. Слова, фразы, предложения, наборы текстов

Лекция посвящена введению в компьютерную лингвистику и обработку теста на естественном языке. Рассматриваются слова, фразы, предложения, корпуса, а также варианты синтаксического разбора предложений. В начале лекции дается краткая аннотация всех лекций курса.

Статистики, языковые модели

В лекции рассматриваются статистики и эвристики, использующиеся для поиска характерных словосочетаний и терминологии в тексте, такие как хи-квадрат, тест Стьюдента, взаимная информация и др. Для моделирования последовательностей слов вводятся языковые модели.

Классификация текстов

В лекции представлены подходы к категоризации (классификация) текстов, например по их тематике (спорт/экономика/…). Рассмотрены такие аспекты, как подготовка данных, выбор атрибутов (признаков) для классификации, работа методов классификации и оценка качества результатов. Методы классификации, представленные в лекции: к-ближайших соседей, линейная и логистическая регрессии, метод опорных векторов, деревья решений и др. В конце лекции приводится сравнение эффективности различных методов классификации текстов на основе новостного набора данных.

Кластеризация текстов

Лекция посвящена методам кластеризации текстов. Основная цель таких методов – автоматически получить группы документов, такие что, документы внутри групп максимально похожи, а группы между собой максимально различны. Рассматриваются методы К-средних, нечеткая кластеризация на базе алгоритма определения параметров модели Expectation-Maximization (EM), иерархическая кластеризация. Представлен метод понижения размерности задачи под названием латентно-семантическое индексирование (Latent Semantic Analysis (Indexing), LSA/LSI), основанный на матричном сингулярном разложении. Несколько слайдов посвящено кластеризации слов и фраз, которые используются для понижения размерности задачи и как признаки классификации.

Разбор текстов по частям речи. Поиск именных сущностей.

В лекции рассмотрены основные задачи классификации последовательностей в тексте. Это текста разметка частями речи и поиск именных сущностей, таких как организации, имена людей и пр. Данные задачи решаются при помощи различных вариаций марковских моделей. Рассмотрены обычные марковские модели, скрытые марковские модели и и марковские модели с максимальной энтропией (maximum entropy markov models - MEMM). Рассказывается, как построить данные модели для описанных задач, и какие признаки классификации используются для успешного решения этих задач. В конце лекции приводится сравнение различных парсеров именных сущностей.

Извлечение отношений из текстов

Лекция посвящена задачам извлечения отношений из текстов. Отношение – это тройка вида «субъект-отношение-объект». Например, «часть-целое», «кто купил какую компанию» и пр. Рассмотрены основные полуавтоматические подходы: DIPRE, Snowball, KnowItAll, TextRunner. Они основаны на автоматическом поиске паттернов для отношений в текстах и последующим переиспользованием этих паттернов для поиска новых отношений. Приводится сравнение данных подходов с точки зрения количества параметров, типов извлекаемых отношений и пр. Также внимание уделено и подходам на базе обучения с учителем. Они сравниваются при помощи размеченного набора данных.

Тест

В материалах ниже размещены два варианта теста.