Робот для обращения на другой сайт и забора данных из тега.

kadikey58 · 16.05.2017

Добрый день всем.

Понадобилось мне вообщем создать робота на своем сайте, который из заполненных инпутов создавал http запрос (невидимо для пользователя) брал оттуда (с другого сайта по этому запросу) цену, возвращался на мой сайт и вставлял ее там.
Я понимаю, что такие вещи должны существовать - иначе зачем было бы изобретать каптчу - но даже не представляю как запрос в гугл забить!
Ничего криминального делать не собираюсь) просто раньше без этого обходились, а теперь необходимо постоянно ориентироваться от цены монополиста.

Поможете?

BaNru · 16.05.2017

Парсер на cUrl

kadikey58 · 16.05.2017

BaNru сказал(а):
Парсер на cUrl

Спасибо) буду капать в этом направлении)

BaNru · 16.05.2017

Ещё "PHP Simple HTML DOM Parser"
Он в принципе появляется по первому запросу тоже.

Если данные не HTML, а XML или JSON (это ещё лучше), то есть варианты готовые и проще.

Кстати, от капчи это не поможет!

kadikey58 · 21.05.2017

BaNru сказал(а):
Ещё "PHP Simple HTML DOM Parser"
Он в принципе появляется по первому запросу тоже.

Если данные не HTML, а XML или JSON (это ещё лучше), то есть варианты готовые и проще.

Кстати, от капчи это не поможет!

Ну капчи пока вроде нет на целевом сайте.
Может есть какой ресурс где более менее подробно описан процесс интеграции похожего парсинга?

BaNru · 21.05.2017

Ну справка есть в манах
PHP cUrl
PHP Simple HTML DOM Parser
А подробной статьи где всё и сразу - не видел и навряд ли будет. Тут надо целую книгу искать.

Могу предложить вариант попроще file_get_contents()

$content = file_get_contents('http://example.com/page');
Так вы получите страницу в переменную. Дальше надо обработать данные. Если вам надо только парочку элементов со страницы, одно и той же, без дальнейшего увеличения разных уникальных спарсенных данных, то можно воспользоваться preg_match_all()

Дальше этот код кладёте в любой файлик и его уже через include или ajax подключаете у себя на странице в нужном месте.
Позже, уже займётесь вопросом кеширования данных или повесите этот скрипт на cron.

Вот так вот просто не получится найти ответа на запрос "интегрировать то не знай чего не знай куда".

В своё время делал без cUrl простенький скрипт получения списка хитов с Европаплюс (сейчас он конечно уже не работает спустя несколько лет, страницы такой уже нет и регулярку конечно править надо)

Если не делать в ближайшем временем на cUrl и кеширование, то вашего бота легко спалят, если из конечно волнует данный вопрос.
cUrl можно спалить только по IP. Но и IP можно обойти через анонимайзеры/прокси, которых полно бесплатных.... вроде, я не пробовал, только лишь хотел, но так и не дошли руки.

PHP Simple HTML DOM Parser - нужен, чтобы не писать здоровенные и сложные регулярки, хотя они работают быстрее, но эта разница в наше время не существенна. И его jQuery подобный синтаксис понятен любителям jQuery.

Гуглите, читайте, пробуйте. Если что-то не понятно - спрашивайте.

Робот для обращения на другой сайт и забора данных из тега.

kadikey58

Новичок

BaNru

Пацифизжу

kadikey58

Новичок

BaNru

Пацифизжу

kadikey58

Новичок

BaNru

Пацифизжу

Онлайн статистика

Статистика форума

Новые пользователи

Поделиться этой страницей