проблема дубликатов на сайте

Статус
Закрыто для дальнейших ответов.

vermut69

Новичок
Регистрация
05.11.2008
Сообщения
3
помогите если можете
я создаю сайт содержащий текстовые приколы и совсем скоро столкнулсяс проблемой многие приколы попадаются на сайте несколько раз. До того как помещать приколы на сам сайт у меня они хранятся в текстовых файлах... вот я и подумал что должны быть програмы для нахождения дубликатов в тексте но найти такой прогои не могу помогите кто знает или подскажите другой способ... :unsure:
 

Period

Member
Регистрация
21.10.2008
Сообщения
10
Полагаю, тут надо какой-нибудь мощный поисковый движок корёжить на эту тему. Ну или как-нибудь по-ламерски - подсчитывать какие слова сколько раз встречаются, сравнивать результаты и т.д. Готовых решений не видел.
 

vermut69

Новичок
Регистрация
05.11.2008
Сообщения
3
да моих знаний пока на движок не хватит ... мне кажится надо решение искать до внесения текста на сайт... надо создать что то типо архива записей (но не могу найти такой проги) и там их сортировать (инадо что б эта прога еще и дубликаты искала)
 

Period

Member
Регистрация
21.10.2008
Сообщения
10
да моих знаний пока на движок не хватит ... мне кажится надо решение искать до внесения текста на сайт... надо создать что то типо архива записей (но не могу найти такой проги) и там их сортировать (инадо что б эта прога еще и дубликаты искала)
Архив записей - это, по-моему, самая меньшая проблема. Просто идёте по всем каталогам и считываете встречающиеся текстовые файлы. Хотя БД - это не так страшно, как думают новички. С ней гораздо проще работать, чем с файлами.

Дубликаты в каком смысле? Точные копии? Тогда храните где-нибудь хэши всех приколов. Желательно перед этим все пробелы и переносы из текста убрать.
 

vermut69

Новичок
Регистрация
05.11.2008
Сообщения
3
 я в незнаком м БД а в них есть возвозможность поиска одинаковых ячеек (в смысле содержания ячеек)
а чтот такое хеши?
 

Period

Member
Регистрация
21.10.2008
Сообщения
10
Ну так, познакомьтесь. Самое долгое - это таблицу создать, а потраченное время окупится на первом же скрипте. Одинаковые ячейки одним запросом ищутся.

Про хэш в поисковиках смотрите.
Думаю, этого вам будет вполне достаточно:
http://ru2.php.net/manual/ru/function.md5.php
 
Статус
Закрыто для дальнейших ответов.
Верх Низ