Робот для обращения на другой сайт и забора данных из тега.

Статус
Закрыто для дальнейших ответов.

kadikey58

Новичок
Регистрация
16.05.2017
Сообщения
3
Добрый день всем.

Понадобилось мне вообщем создать робота на своем сайте, который из заполненных инпутов создавал http запрос (невидимо для пользователя) брал оттуда (с другого сайта по этому запросу) цену, возвращался на мой сайт и вставлял ее там.
Я понимаю, что такие вещи должны существовать - иначе зачем было бы изобретать каптчу - но даже не представляю как запрос в гугл забить!
Ничего криминального делать не собираюсь) просто раньше без этого обходились, а теперь необходимо постоянно ориентироваться от цены монополиста.

Поможете?
 

BaNru

Пацифизжу
Команда форума
Регистрация
13.11.2010
Сообщения
4 138
Парсер на cUrl
 

BaNru

Пацифизжу
Команда форума
Регистрация
13.11.2010
Сообщения
4 138
Ещё "PHP Simple HTML DOM Parser"
Он в принципе появляется по первому запросу тоже.

Если данные не HTML, а XML или JSON (это ещё лучше), то есть варианты готовые и проще.

Кстати, от капчи это не поможет!
 

kadikey58

Новичок
Регистрация
16.05.2017
Сообщения
3
BaNru сказал(а):
Ещё "PHP Simple HTML DOM Parser"
Он в принципе появляется по первому запросу тоже.

Если данные не HTML, а XML или JSON (это ещё лучше), то есть варианты готовые и проще.

Кстати, от капчи это не поможет!
Ну капчи пока вроде нет на целевом сайте.
Может есть какой ресурс где более менее подробно описан процесс интеграции похожего парсинга?
 

BaNru

Пацифизжу
Команда форума
Регистрация
13.11.2010
Сообщения
4 138
Ну справка есть в манах
PHP cUrl
PHP Simple HTML DOM Parser
А подробной статьи где всё и сразу - не видел и навряд ли будет. Тут надо целую книгу искать.

Могу предложить вариант попроще file_get_contents()

$content = file_get_contents('http://example.com/page');
Так вы получите страницу в переменную. Дальше надо обработать данные. Если вам надо только парочку элементов со страницы, одно и той же, без дальнейшего увеличения разных уникальных спарсенных данных, то можно воспользоваться preg_match_all()

Дальше этот код кладёте в любой файлик и его уже через include или ajax подключаете у себя на странице в нужном месте.
Позже, уже займётесь вопросом кеширования данных или повесите этот скрипт на cron.

Вот так вот просто не получится найти ответа на запрос "интегрировать то не знай чего не знай куда".

В своё время делал без cUrl простенький скрипт получения списка хитов с Европаплюс (сейчас он конечно уже не работает спустя несколько лет, страницы такой уже нет и регулярку конечно править надо)


Если не делать в ближайшем временем на cUrl и кеширование, то вашего бота легко спалят, если из конечно волнует данный вопрос.
cUrl можно спалить только по IP. Но и IP можно обойти через анонимайзеры/прокси, которых полно бесплатных.... вроде, я не пробовал, только лишь хотел, но так и не дошли руки.

PHP Simple HTML DOM Parser - нужен, чтобы не писать здоровенные и сложные регулярки, хотя они работают быстрее, но эта разница в наше время не существенна. И его jQuery подобный синтаксис понятен любителям jQuery.

Гуглите, читайте, пробуйте. Если что-то не понятно - спрашивайте.
 
Статус
Закрыто для дальнейших ответов.
Верх Низ