Поиск…


Синтаксис

  • Используйте Anemone :: Core.new (url, options) для инициализации искателя
  • Используйте блок on_every_page для запуска кода на каждой посещаемой странице.
  • Используйте метод .run для запуска обхода. Никакой код заранее не запустит никаких вызовов GET.

параметры

параметр подробности
URL URL (включая протокол, подлежащий обходу)
опции дополнительный хэш, см. все параметры здесь

замечания

  • Искатель будет использовать только ссылки, которые находятся в том же домене, что и исходный URL. Это важно знать при работе с поддоменами контента , такими как media.domain.com , так как они будут игнорироваться при сканировании domain.com
  • Обходчик - это протокол HTTP / HTTPS, который будет по умолчанию оставаться на исходном протоколе, а не посещать другие ссылки в том же домене
  • Объект page в блоке on_every_page выше имеет метод .doc который возвращает документ Nokogiri для HTML-страницы страницы. Это означает, что вы можете использовать селектора on_every_page внутри блока on_every_page такие как page.doc.css('div#id')
  • Другую информацию для начала можно найти здесь

Сканирование основного сайта

pages = []
crawler = Anemone::Core.new(url, options)
crawler.on_every_page do |page|
  results << page.url
end
crawler.run


Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow