Институт системного программирования Роcсийской академии наук


Основы обработки текстов

Турдаков Денис Юрьевич, к.ф.-м.н. Осенний полугодовой курс.

Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.

Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Рассматриваемые темы

  1. Задачи обработки текстов.
  2. Регулярные выражения и конечные автоматы.
  3. Методы поиска словосочетаний.
  4. N-граммы и определение частей речи слов.
  5. Методы классификации и кластеризации.
  6. Контекстно-свободные грамматики и синтаксический анализ.
  7. Статистические методы синтаксического анализа.
  8. Лексическая семантика.
  9. Вопросно-ответные системы и автоматическое реферирование.
  10. Машинный перевод.
  11. Тематическое моделирование.
  12. Распределенные методы обработки текстов.

Курс группы

Информационные системы

Перейти к учебным курсам ИСП РАН