Парсер Rss-Лент

Статус
Закрыто для дальнейших ответов.

Maverick

Active Member
Регистрация
03.03.2006
Сообщения
29
Я планирую написать алгоритм получения новостей из произвольного RSS-канала. Особенность этого алгоритма заключается в том, что импортироваться будет не только Intro новости, но и продолжение, а ссылка на саму новость как источник в конце новости, а не на самом интересном месте. При помощи такого алгоритма можно сделать сервис автообновления сайта полноценными новостями из других источников.

Может такой алгоритм уже есть у кого-нибудь готовый и кому не жалко с ним поделиться?

З.Ы. Может кто даст советы по тому, что он должен уметь в идеале? Вообще говоря я буду делать полноценный компонент для CMS Mambo/Joomla...
 

deMone

Злой страшный дядька
Регистрация
30.01.2006
Сообщения
937
В принципе всё несложно. С помощью любой XML-библиотеки парсим RSS-ленту на записи. Из каждой записи вычленяем текст и URL. Скачиваем (целиком) страницу по указанному URL, находим в ней такой же текст и его продолжение, отрываем, запоминаем.

Основная сложность в том, как определить, когда закончилось продолжение новости.
 

DnAp

self::setDebugMode(true);
Регистрация
30.04.2005
Сообщения
490
Видел такое, в итоге выходит что юзер при добавлении нового сайта должен распарсить сам кусок пример страницы на каком-то странном новоиспеченном языке...
 

deMone

Злой страшный дядька
Регистрация
30.01.2006
Сообщения
937
Да, как правило так и приходится делать. Иначе практически невозможно отличить статью от остальной части разбираемого сайта.
 
Статус
Закрыто для дальнейших ответов.
Верх Низ