В настоящее время в распоряжении проекта имеются следующие поисковые базы и коллекции:

Наименование Количество документов Размер Вид документов
 15000 Рефератов 16 100 4,0 Гб  Рефераты
 Studentbank.ru 71 434 22,0 Гб Рефераты
 Bestreferat.ru 360 538 35,6 Гб Рефераты
 Textreferat.com 10 805 0,5 Гб Рефераты
 Studentlib.com  299 742 724,0 Гб  Рефераты
 Tululu.org 171 163 240,8 Гб  Рефераты
 Tsu.ru  8 723 32,3 Гб  ВКР
 Spbstu.ru  15 643 43,0 Гб  ВКР 
 Sfu.ru  13 972 32,3 Гб  ВКР 
 Rsvpu.ru  2 712 3,9 Гб  ВКР 
 Mgpu.ru  7 029 13,4 Гб  ВКР 
 Urfu.ru 3 803 8,4 Гб ВКР
 Spbu.ru 8 229 16,6 Гб  ВКР 
 Tpu.ru 13 188 28,5 Гб  ВКР 
 Tltsu.ru 9 945 16,5 Гб  ВКР 
 Mivlgu.ru  3 294 5,9 Гб  ВКР 
 Bsu.edu.ru 2 490 3,6 Гб ВКР
 Susu.ru 17 243 37,6 Гб ВКР
 Utmn.ru 1 918 3,4 Гб ВКР
 Uspu.ru 2 654 3,8 Гб ВКР
 Vogu.ru 7 326 38,9 Гб ВКР
 Wikipedia.org 3 764 940 50,8 Гб  Статьи
 Lib.rus.ec 448 167 531,3 Гб Книги

Шарапова Екатерина Викторовна - старший преподаватель.

Место работы: Владимирский государственный университет.

E-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

 

Середа Сергей Николаевич - к.т.н., доцент.

Место работы: Владимирский государственный университет.

E-mail: Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

 

Поиск нечетких дубликатов текстов

 

Цель работы – разработать методы и алгоритмы обнаружения нечетких дубликатов текстов (проверки текстов на наличие заимствований).
Проблема обнаружения похожих документов - чрезвычайно актуальная. Существует множество решений для поиска одинаковых документов (полных дубликатов) и небольших по размерам частично похожих текстов (нечетких дубликатов). Для значительных по объемам текстов существующие подходы не могут обеспечить качественной проверки за небольшие периоды времени. Работа направлена на разработку подходов, позволяющих быстро и эффективно проводить проверку документов любого размера (в том числе больших) на наличие полных и нечетких дубликатов.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00692.