Поиск нечетких дубликатов текстов

 

Цель работы – разработать методы и алгоритмы обнаружения нечетких дубликатов текстов (проверки текстов на наличие заимствований).
Проблема обнаружения похожих документов - чрезвычайно актуальная. Существует множество решений для поиска одинаковых документов (полных дубликатов) и небольших по размерам частично похожих текстов (нечетких дубликатов). Для значительных по объемам текстов существующие подходы не могут обеспечить качественной проверки за небольшие периоды времени. Работа направлена на разработку подходов, позволяющих быстро и эффективно проводить проверку документов любого размера (в том числе больших) на наличие полных и нечетких дубликатов.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00692.