Перейти к содержимому

Фотография
- - - - -

Робот для обращения на другой сайт и забора данных из тега.


  • Вы не можете создать новую тему
  • Закрытая тема Тема закрыта
Сообщений в теме: 5

#1 kadikey58

kadikey58

    Прохожий

    Топикстартер
  • Новичок
  • 0
    3 сообщ.

Отправлено 16 Май 2017 в 16:16

Добрый день всем.

 

Понадобилось мне вообщем создать робота на своем сайте, который из заполненных инпутов создавал http запрос (невидимо для пользователя) брал оттуда (с другого сайта по этому запросу) цену, возвращался на мой сайт и вставлял ее там.

Я понимаю, что такие вещи должны существовать - иначе зачем было бы изобретать каптчу - но даже не представляю как запрос в гугл забить!

Ничего криминального делать не собираюсь) просто раньше без этого обходились, а теперь необходимо постоянно ориентироваться от цены монополиста.

 

Поможете?


Сообщение отредактировал kadikey58: 16 Май 2017 в 16:17

  • 0

Спонсор

#2 BaNru

BaNru

    Пацифизжу

  • суперМодератор
  • 980
    3 506 сообщ.

Отправлено 16 Май 2017 в 18:04

Парсер на cUrl
  • 0

#3 kadikey58

kadikey58

    Прохожий

    Топикстартер
  • Новичок
  • 0
    3 сообщ.

Отправлено 16 Май 2017 в 18:54

Парсер на cUrl

Спасибо) буду капать в этом направлении)


  • 0

#4 BaNru

BaNru

    Пацифизжу

  • суперМодератор
  • 980
    3 506 сообщ.

Отправлено 16 Май 2017 в 19:00

Ещё "PHP Simple HTML DOM Parser"
Он в принципе появляется по первому запросу тоже.

Если данные не HTML, а XML или JSON (это ещё лучше), то есть варианты готовые и проще.

Кстати, от капчи это не поможет!
  • 0

#5 kadikey58

kadikey58

    Прохожий

    Топикстартер
  • Новичок
  • 0
    3 сообщ.

Отправлено 21 Май 2017 в 16:33

Ещё "PHP Simple HTML DOM Parser"
Он в принципе появляется по первому запросу тоже.

Если данные не HTML, а XML или JSON (это ещё лучше), то есть варианты готовые и проще.

Кстати, от капчи это не поможет!

Ну капчи пока вроде нет на целевом сайте.


Может есть какой ресурс где более менее подробно описан процесс интеграции похожего парсинга?


  • 0

#6 BaNru

BaNru

    Пацифизжу

  • суперМодератор
  • 980
    3 506 сообщ.

Отправлено 22 Май 2017 в 01:53

Ну справка есть в манах
PHP cUrl
PHP Simple HTML DOM Parser
А подробной статьи где всё и сразу - не видел и навряд ли будет. Тут надо целую книгу искать.

Могу предложить вариант попроще file_get_contents()

$content = file_get_contents('http://example.com/page');

Так вы получите страницу в переменную. Дальше надо обработать данные. Если вам надо только парочку элементов со страницы, одно и той же, без дальнейшего увеличения разных уникальных спарсенных данных, то можно воспользоваться preg_match_all()

Дальше этот код кладёте в любой файлик и его уже через include или ajax подключаете у себя на странице в нужном месте.
Позже, уже займётесь вопросом кеширования данных или повесите этот скрипт на cron.

Вот так вот просто не получится найти ответа на запрос "интегрировать то не знай чего не знай куда".
 
В своё время делал без cUrl простенький скрипт получения списка хитов с Европаплюс (сейчас он конечно уже не работает спустя несколько лет, страницы такой уже нет и регулярку конечно править надо)
3ab4c43a6e.png

 

Если не делать в ближайшем временем на cUrl и кеширование, то вашего бота легко спалят, если из конечно волнует данный вопрос.

cUrl можно спалить только по IP. Но и IP можно обойти через анонимайзеры/прокси, которых полно бесплатных.... вроде, я не пробовал, только лишь хотел, но так и не дошли руки.

 

PHP Simple HTML DOM Parser - нужен, чтобы не писать здоровенные и сложные регулярки, хотя они работают быстрее, но эта разница в наше время не существенна. И его jQuery подобный синтаксис понятен любителям jQuery.

 

Гуглите, читайте, пробуйте. Если что-то не понятно - спрашивайте.


  • 0



Похожие темы Свернуть

  Название темы Форум Автор Статистика Последнее сообщение
Статистика

Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 скрытых пользователей