Лекция 2. Токенизация. Нормализация

Четверг, 25 сентября 2014
ФМЛ 239, 25 ауд.

Описание

  • Переход от байтов к символам. Кодировки.
  • Определение языка документа. Сегментация.
  • Токенизация. Проблема компаундов.
  • Нормализация токенов: casefolding, диакритика, renyxa.
  • Нормализация слов: стемминг, лемматизация.