Азия и Африка в меняющемся мире. XXVIII Международная научная конференция 22-24 апреля 2015 г. - page 451

воздействий позволяет предложить обоснованные способы решения. Ключе-
вым элементом нового подхода является рандомизация процесса измерений
1
.
На бытовом уровне такого типа подход хорошо всем известен и называется
методом проб и ошибок. В докладе будут приведены примеры задач, в которых
использование парадигмы «рандомизации» позволяет получить удовлетвори-
тельные ответы, в то время, как для тех же задач классические статистические
подходы не дают никаких решений.
Кижаева Н. А. (Матмех, СПбГУ, Санкт-Петербург)
Применение алгоритмов тематического моделирования
к кластеризации текстов на арабском языке
Одной из распространенных задач автоматической обработки текстов является
задача кластеризации, имеющая применение в таких областях, как например:
индексация текстов, сортировка документов, фильтрация, категоризация веб-стра-
ниц. Обработка текстов на арабском языке имеет свои особенности и трудности
вследствие сложной морфологической структуры языка. Возрастающий объем
текстовой информации на арабском языке в сетиИнтернет и рост арабоговорящих
пользователей предоставляет доступ к материалам для исследования.
Тематическое моделирование — способ построения модели коллекции
текстов, определяющей, к каким темам относится каждый из текстов. Пред-
ставление коллекции в пространстве тем, как в пространстве меньшей раз-
мерности, позволяет более эффективно решать задачи тематического поиска,
классификации, аннотации документов и новостных потоков. Была выбрана
модель скрытого размещения Дирихле—вероятностная модель, предложенная
в 2003 г. Д. Блеем и соавторами.
Предобработка данных необходима для стандартизации представления
текстов и включает в себя такие этапы, как удаление пунктуационных знаков,
чисел, токенизация — разделение текста на словоформы, нормализация, уда-
ление стоп-слов.
Применение алгоритмов тематического моделирования для кластеризации
текстов возможно двумя способами: использование модели для уменьшения
размерности (переход из пространства слов в пространство тем) и применение
известных алгоритмов кластеризации, например, K-means, или использование
тематического моделирования напрямую. Каждая тема, после оценки пара-
метров, становится новым кластером, к которому относятся все документы,
которые с большей вероятностью соответствуют этой теме.
1
Granichin et al. Randomized Algorithms in Automatic Control and Data Mining.
Springer, 2015.
Источниковедение и историография ислама в России
449
1...,441,442,443,444,445,446,447,448,449,450 452,453,454,455,456,457,458,459,460,461,...562
Powered by FlippingBook