Недобросовестные заимствования из иноязычных источников трудно выявить. Задачу можно решить путем поиска смысловых совпадений, используя созданный российскими учеными многоязычный словарь понятий.
Точность (precision) — отношение числа релевантных документов, найденных поисковой системой, к общему числу найденных документов.
Полнота (recall) — отношение числа найденных релевантных документов к общему числу релевантных документов в базе.
F-мера (F-measure, мера Ван Ризбергена) — взвешенное среднее гармоническое точности P и полноты R.
Заимствования в научных работах представляют сейчас серьезную проблему не только в России, но и в других странах. В академической практике западных университетов и научных журналов приняты правила, регулирующие допустимость заимствований и способы их оформления. Есть четкие критерии отнесения некорректных заимствований к плагиату. Плагиатом, как правило, считается любое использование чужих идей и высказываний без должной ссылки на источник, в том числе пересказ текста другого автора без указания на первоисточник.
В России пока к выявлению плагиата не везде относятся с необходимым вниманием, хотя во многих научных и образовательных организациях для автоматизации поиска плагиата разработаны специальные информационные системы. Однако возможности этих систем ограниченны: они не позволяют выявлять как заимствования при существенном изменении лексического состава или структуры текста недобросовестным автором, так и заимствования из текстов на иностранном языке.
Для поиска заимствований из иноязычных текстов необходимо уметь сопоставлять тексты на разных языках, а для этого следует научиться выявлять и формализовать содержание разноязычных текстов. Решение этой проблемы осложняется тем, что в естественных языках существует развитая синонимия. Это затрудняет использование существующих систем автоматического перевода текстов для поиска заимствований.
Несколько лет назад сотрудники Института проблем информатики Федерального исследовательского центра "Информатика и управление" (ФИЦ ИУ) РАН совместно с компанией "Метафраз" занялись проблемой поиска заимствований в многоязычных массивах текстов. В основу работы была положена концепция профессора Герольда Белоногова, специалиста в области компьютерной лингвистики, в соответствии с которой наиболее устойчивыми единицами смысла в языке являются так называемые понятия, выраженные отдельными словами или устойчивыми словосочетаниями. По Белоногову, именно они являются базовыми строительными блоками, на основе которых формируются смысловые единицы более высоких уровней, в частности, предложения. Их и нужно сопоставлять для установления смыслового тождества или близости текстов или их фрагментов (в том числе и разноязычных). При этом необходимо учитывать вариативность форм представления в тексте одного и того же смысла.
Был создан необходимый для такого сопоставления словарь, объединяющий в кластеры слова и словосочетания с тождественными или близкими по смыслу значениями на русском и английском языках. В этом словаре всем словам и словосочетаниям, являющимся формой представления одного и того же понятия, сопоставлялся уникальный идентификатор. На сегодняшний день в словаре более 3,5 млн словарных статей. Участие лингвистов в работе над словарем позволило включить в него около полумиллиона словосочетаний, связанных отношениями синонимии. Созданный словарь получил название "Многоязычный словарь унифицированных формализованных представлений наименований понятий (многоязычный словарь УФПНП)".
Фрагмент словаря представлен в таблице. Разработаны и технологии, теоретически позволяющие добавлять в словарь и другие языки.
Такой подход дает возможность — после процедуры формализации — хранить в базе данных информацию о тексте в виде уникальных, независимых от языка идентификаторов, что позволяет минимизировать вычислительные ресурсы при поиске заимствований. Скорость поиска заимствований для разноязычных текстов не должна отличаться от скорости существующих информационных систем, не способных обрабатывать многоязычные тексты. Единственными процедурами, в которых задействованы более сложные алгоритмы, будут семантико-синтаксический анализ и формализация содержания текстов,— но они осуществляются лишь однократно, при занесении текста в базу данных. Связанная с этим потеря скорости может компенсироваться за счет использования параллельных вычислений.
Разработанный метод выявления заимствований в текстах разноязычных документов предполагает несколько этапов.
На первом этапе определяется язык анализируемого текста и выявляется совокупность значимых наименований понятий с указанием их места в тексте. После чего каждому наименованию присваивается номер из "Многоязычного словаря унифицированных формализованных представлений наименований понятий". Затем производится поиск совпадающих номеров в массиве формализованных представлений текстов, определяющий список тех, что близки ему по лексическому составу.
На втором этапе для каждой пары текстов (исходного и одного из списка лексически ему близких) устанавливаются пары наиболее близких по содержанию фрагментов. Затем для выделенных фрагментов определяется мера локальной смысловой схожести. Она определяется как сходство контекстного окружения попадающих в единый словарный кластер единиц.
На третьем этапе выбираются последовательности единиц со значением меры локальной смысловой схожести выше заданного порога. Для каждой такой последовательности вычисляется степень их глобальной смысловой схожести — сходства состава и порядка следования в текстах. В зависимости от степени соответствия заданным критериям делается вывод о наличии или отсутствии заимствований. Вся информация о проведенном поиске заносится в базу данных.
Предложенный алгоритм был реализован в виде экспериментального программного обеспечения для обработки текстов на двух языках (русском и английском). Его эффективность была проверена на корпусе, включающем 2000 русских и английских текстов, а также 1200 пар параллельных текстов на этих языках. При тестировании были получены неплохие значения показателей эффективности: полнота — 0,73, точность — 0,99 и F1-мера — 0,84. В процессе дальнейшей работы и при наполнении словарей новой лексикой эти показатели могут быть улучшены. Но и сейчас проделанная работа представляется значительным шагом вперед: до сих пор задача поиска заимствований для массивов разноязычных текстов на должном уровне решена не была.
Словари, легшие в основу многоязычного словаря УФПНП
1. Автоматика и радиоэлектроника
2. Политика и общество
3. Биология и химия
4. Архитектура и строительство
5. Экономика и бизнес
6. Универсальный (общая лексика)
7. Компьютерные технологии
8. Корпоративное управление
9. Энергетика
10. Геология и геофизика
11. Парламентская деятельность
12. Атомная энергетика и физика
13. Авиакосмический
14. Медико-биологический
15. Военно-технический
16. Геодезия и земельный кадастр
17. Физика
18. Международные отношения
19. Средства массовой информации
20. Право и налогообложение
21. Информационные технологии
22. Техника и транспорт
Фрагмент многоязычного словаря УФПНП
|