Спецкурс "Автоматическое извлечение информации из текстов" (Text mining)

лектор: Лукашевич Наталья Валентиновна,
ведущий научный сотрудник НИВЦ МГУ,
к.ф.-м.н.

Математический спецкурс кафедры алгоритмических языков
для 2-4 курсов
Будет проходить по вторникам в 18 часов, в 609 аудитории.
Первая лекция 24 февраля

В связи с доступностью в настоящее время большого количества электронных документов важным является умение обрабатывать большие объемы текстовой данных для получения необходимой пользователю информации, включая классификацию и кластеризацию текстов, анализ тональности, извлечение знаний из текстов. В рамках спецкурса будут рассмотрена совокупность современных задач по автоматической обработке текстов, имеющих практическую значимость и необходимых в работе самых разных организаций и компаний.

Программа

1. Введение, задачи автоматической обработки текстов, этапы обработки текстов. Интеллектуальные системы обработки текстовой информации;
2. Морфологический анализ текстов. Скрытые марковские модели и модели типа CRF для разрешения морфологической неоднозначности;
3. Векторная модель представления документов. Информационный поиск;
4. Автоматическая классификация текстов. Проблемы различных методов;
5. Автоматическая кластеризация текстов. Кластеризация новостей;
6. Извлечение мнений из текстов. Анализ тональности. Извлечение оценочной лексики из текстов;
7. Извлечение устойчивых словосочетаний, терминов, ключевых слов;
8. Извлечение именованных сущностей, фактов из текстов. Semi-supervised learning,
9. Извлечение из текстов синонимов, парафраз, таксономий. Автоматическое построение онтологий.

Литература
1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И. и др. – М.: МИЭМ, 2011.
2. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. – М.: Изд-во Московского университета, 2011.
3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
4. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.