Здравствуйте форумчане. Подскажите программу, что бы она могла искать и определять дубликаты книг (файлов) в популярных форматах, таких как: .pdf, .fb2, .epub, .djwy, etc Проблема в чем? Есть к примеру книга в ПДФ и такая же в ЭПАБ или ФБ2...У них возможно разное название (не точно одинаково подписаны) Есть ли лекарство от этого? Понимаю, что это должна быть какая то "читалка", что бы прочитала и определила схожесть двух файлов (наполнения - текст) Это было бы идеально (как к примеру для видео - VIDEO COMPARER) Сканирую Дубликат файл детектор (или детектед...), Дубликат файл ремувер, Ауслогиком....не находит ни одна программа, хотя я точно знаю, что одинаковые файды есть, даже с одинаковыми МД5 (суммами). Почему не определяет - понятия не имею Помогите своим опытным советом. Благодарствую! И да..пересматривать и все рчками "детектить" - это гемор будет ужОс...
kostya-chist, 29.11.2023 - 23:29
Сразу могу сказать что это невыполнимо. djvu - это картинки, часть pdf - тоже может оказаться в картинках. Сравнивать тексты из них с fb2 и epub автоматически просто невозможно.
GSI1, 30.11.2023 - 13:32
Так даже одинаковые ПДФ ни одна программа не определяет. Идентичные с одинаковыми МД5..во как...
zoog, 30.11.2023 - 16:08
Цитата | Quote(GSI1 @ 30.11.2023 - 13:32)
ак даже одинаковые ПДФ ни одна программа не определяет. Идентичные с одинаковыми МД5..во как...
Ну, это невозможно) Пруфы в студию. Есть программы - сравнивают текстовые или htm-файлы, есть программы-конверторы. Концепция понятна?
GSI1, 1.12.2023 - 12:53
Вот пример на одном файле (книге)
zoog, 1.12.2023 - 17:42
Цитата | Quote(GSI1 @ 1.12.2023 - 12:53)
Вот пример на одном файле (книге)
Зачем нам картинки - кидайте сами файлы, любой адекватный удалитель дубликатов их отметит, а что на уме у Вашего барана - ведомо только его создателям-индусам)
GSI1, 1.12.2023 - 21:09
Я сканировал и ауслогиксом, и дубликат файл детекор...результат один и тот же. Но вы видите снимок, что хеш суммы одни и те же? Что вы в файлах собрались искать то, чего нет? МД5 - одно и то же, сама программа для открытия книг - также это подтверждает. И ХЕШ-ТАБ также....
zoog, 1.12.2023 - 23:17
Просто хочу просканировать гетеросексуальным детектором)
GSI1, 2.12.2023 - 21:23
Еще раз: хеш таб показал одинаковые суммы. программа читалка-дрочилка - показала одинаковые суммы. файл - копия. Сейчас сделал такое: скопировал файл и тут же его вставил в папку, эту же. Поиск дубоикатов - показал НОЛЬ! Может выслать файл и его копию, что бы проверить сумма которая идентична, идентична ли? В Одессе, уже бы сказали что делать и кому Успехов!
zoog, 4.12.2023 - 11:37
Я хотел указать на неработоспособность того, чем Вы пытаетесь искать - но, похоже, это уже не поможет.
GSI1, 5.12.2023 - 18:53
Я думаю, можно просто написать, а не искать файлы, что бы сверить. То что не ищет как надо - это и коню понятно, я в первом посте написал, что суммы одни и те же, но проги не детектят их. И вопрос стоял в том, что бы подсказали программу, которая все таки "возьмет" эти файлы, а не умничали Вместо попыток что-то кому то доказать, проще было бы помочь хотя бы советом. И да, я нашел прогу, которая все вычистила И оказалась программа, которой я пользовался еще лет 10 назад, а то и 15...