Алгоритм латентно-семантического анализа

Сначала проводится предварительная обработка текста: из него удаляются слова, не несущие смысловой нагрузки (предлоги и союзы), а оставшиеся слова приводятся к исходной форме (например, существительные — к форме именительного падежа единственного числа). После этого текст разбивается на отдельные фрагменты, состоящие из некоторого количества последовательно идущих слов (в зависимости от размера текста длина фрагмента может состоять от нескольких десятков до нескольких сотен слов). После довольно сложной математической процедуры, основанной на так называемом сингулярном разложении (singular value decomposition, SVD), появляется возможность определить, насколько синтагматически близкими являются какие-либо два фрагмента этого текста.

Рис. 01 Диаграмма сходства для программ "Единой России" и "Яблока" на выборах 2007г.

Программа ЕР (фрагменты 1-15) четко отделена от программы "Яблока", в которой можно выделить две внутренне связные части, соответствующие разделам I, II (фрагменты 16-30) и разделу III (фрагменты 31-46).

Рис. 02 Диаграмма сходства для программ "Единой России" и "Яблока" на выборах 2011 года (показаны только строки, соответствующие программе "Яблоко")

В 2011 г. на съезде "Единой России" было принято решение считать предвыборной программой тексты выступлений Дмитрия Медведева и Владимира Путина. Априори можно было бы предположить, что выступление Медведева, имеющего репутацию либерала, окажется более близким программе "Яблока", чем выступление Путина. Однако ЛСА показывает, что это не так: пересечение столбцов 1-11 (Медведев) и строк 41-67 (программа "Яблока") имеет более светлый тон, чем пересечение столбцов и строк, отражающее сходство выступлений Путина и программы "Яблока".

Рис. 03 Диаграмма сходства предвыборных программ КПРФ и ЕР 2011 года (показаны только строки, соответствующие программе КПРФ)

Сопоставление программ КПРФ и ЕР 2011 г. показывает, в частности, что они слабо различимы, если рассматривать программу ЕР как целое. Если же отдельно рассмотреть корреляцию строк 1-26 (КПРФ) со столбцами 27-37 (Медведев) и 38-64 (Путин), то можно отметить несходство программы КПРФ с выступлением Медведева, высокую степень близости с первой частью выступления Путина и расхождение с последней частью.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...