Кластеризация текстов

Описание

Лекция посвящена методам кластеризации текстов. Основная цель таких методов – автоматически получить группы документов, такие что, документы внутри групп максимально похожи, а группы между собой максимально различны. Рассматриваются методы К-средних, нечеткая кластеризация на базе алгоритма определения параметров модели Expectation-Maximization (EM), иерархическая кластеризация. Представлен метод понижения размерности задачи под названием латентно-семантическое индексирование (Latent Semantic Analysis (Indexing), LSA/LSI), основанный на матричном сингулярном разложении. Несколько слайдов посвящено кластеризации слов и фраз, которые используются для понижения размерности задачи и как признаки классификации.

Кластеризация текстов

Слайды с лекции

Описание